Finでは、サーバーの状態だけでなく、実際の顧客の活動を使ってSLA遵守を追跡しています。

プラットフォームのコア機能を監視するために「heartbeat metrics」を使用しています。これらの指標は、顧客が製品の主要機能を利用できるかどうかを反映し、製品内の実際の成功率の指標です。

heartbeat metricが低下し、その問題が顧客のコア製品利用能力に影響を与える場合、SLAに影響があるとカウントします。

heartbeat metricは、コア機能が動作しているかどうかを示す大量かつリアルタイムの指標です。

例は以下の通りです：

これらを常に監視しています。期待値を下回った場合、usersから問題の報告がなくてもすぐに調査します。

追跡しているSLA

複数のheartbeat metricsに基づいて遵守状況を判断する2つのSLAを維持しています：

これらのSLAに対して影響をカウントするのはいつですか？

特定のSLAに対して影響をカウントするのは以下の場合です：

アーキテクチャと検出方法のため、計算されたSLA影響は、すべての顧客が同じように影響を受けなくても最悪のシナリオを反映します。

SLAに関する完全な条件については、利用規約全文をご参照ください。

heartbeat metricsでは、二値の閾値ではなく異常検知を使用しています。これにより、完全な停止だけでなく微妙な顧客体験の劣化も捉えられ、約束の達成状況がより明確になります。

この検出の一環として、堅牢なインシデント対応プログラムを実施しています。heartbeat metricがアラートを発した場合：

RPO (Recovery Point Objective): 0 – インシデント発生時でも顧客データが失われないように十分な冗長性を持つインフラを設計しています。
RTO (Recovery Time Objective): 8時間 – 可用性に影響する大規模な停止が発生した場合、影響を受けた地域や製品で8時間以内にサービスを完全復旧することを目指します。