Reliability

小さなチームで SLO を扱うときの現実的な粒度

SLO は大きな組織だけの道具ではない。小さなチームでも、ユーザーにとって壊れている状態を言語化するだけで、改善の優先順位はかなり決めやすくなる。

最初に測るもの

最初から細かい指標を揃えるより、まずはリクエスト成功率、主要画面の応答時間、バッチや同期処理の遅延など、体験に直結するものに絞る。運用できない指標は、ないより悪い判断材料になる。

エラーバジェットの使い道

エラーバジェットはリリースを止めるためだけの仕組みではなく、「今は信頼性改善に時間を使うべきか」を話すための共通言語として使う。