Reliability
小さなチームで SLO を扱うときの現実的な粒度
SLO は大きな組織だけの道具ではない。小さなチームでも、ユーザーにとって壊れている状態を言語化するだけで、改善の優先順位はかなり決めやすくなる。
最初に測るもの
最初から細かい指標を揃えるより、まずはリクエスト成功率、主要画面の応答時間、バッチや同期処理の遅延など、体験に直結するものに絞る。運用できない指標は、ないより悪い判断材料になる。
エラーバジェットの使い道
エラーバジェットはリリースを止めるためだけの仕組みではなく、「今は信頼性改善に時間を使うべきか」を話すための共通言語として使う。