Bei Fin verfolgen wir die SLA-Einhaltung anhand echter Kundenaktivitäten – nicht nur anhand der Servergesundheit.

Wir verwenden „Heartbeat-Metriken“, um die Kernfunktionalität unserer Plattform zu überwachen. Diese Metriken zeigen, ob Kunden wichtige Funktionen unserer Produkte nutzen können – sie messen die tatsächlichen Erfolgsraten innerhalb unseres Produkts.

Fällt eine Heartbeat-Metrik ab und beeinträchtigt das Problem die Fähigkeit der Kunden, unser Kernprodukt zu nutzen, werten wir dies als Einfluss auf unsere SLAs.

Was ist eine „Heartbeat-Metrik“?

Eine Heartbeat-Metrik ist ein Echtzeit-Indikator mit hohem Volumen, der anzeigt, ob eine Kernfunktion funktioniert.

Beispiele sind:

Nachrichten, die im Web- oder Mobile Messenger erstellt wurden.
Teammate-Antworten im Inbox.
Fin Textantworten an Kunden.
Teammate-Interaktionen mit dem Inbox.

Wir überwachen diese ständig. Wenn eine unter die erwarteten Werte fällt, untersuchen wir sofort – auch wenn users noch kein Problem gemeldet haben.

SLAs, die wir verfolgen

Wir pflegen zwei SLAs, deren Einhaltung durch unsere verschiedenen Heartbeat-Metriken informiert wird:

Fin SLA: Deckt Fins Fähigkeit ab, Textantworten zu generieren und im Namen der Kunden zu antworten,
Intercom SLA: Deckt die Nutzbarkeit des Inbox für Ihr Team und des Messenger für Ihre Kunden ab.

Wann werten wir Auswirkungen auf diese SLAs?

Wir werten Auswirkungen auf unsere spezifischen SLAs aus, wenn:

Es einen vollständigen Ausfall der Fin- oder Core Platform-Produktfunktionen gibt.
Es eine erhebliche Verschlechterung der Nutzungserfahrung unserer Kernfunktionen wie Fin, Inbox und Messenger gibt.

Aufgrund unserer Architektur und Erkennungsmethoden spiegelt unsere berechnete SLA-Auswirkung immer das Worst-Case-Szenario wider, auch wenn nicht alle Kunden gleichermaßen von einem Problem betroffen sind.

Für vollständige Bedingungen zu unseren SLAs verweisen wir auf unsere vollständigen Nutzungsbedingungen.

Wie wir Auswirkungen erkennen

Mit unseren Heartbeat-Metriken verwenden wir Anomalieerkennung, keine binären Schwellenwerte. So können wir subtile Verschlechterungen der Kundenerfahrung erfassen, nicht nur vollständige Ausfälle, was unser Verständnis darüber, ob wir unsere Verpflichtungen Ihnen gegenüber erfüllen, klarer macht.

Im Rahmen dieser Erkennung haben wir ein robustes Incident-Response-Programm. Wenn eine Heartbeat-Metrik einen Alarm auslöst:

Ein Vorfall wird eröffnet und Ingenieure werden benachrichtigt. Unser Bereitschaftsprozess ist rund um die Uhr verfügbar, um vollständige Abdeckung zu gewährleisten.
Wir können automatisch kürzliche Codeänderungen zurückrollen, um einen stabilen Zustand wiederherzustellen.
Ersthelfern werden über Automatisierung vorgeschlagene Ursachen bereitgestellt.

Wiederherstellungsziele

RPO (Recovery Point Objective): 0 – Unsere Infrastruktur ist mit ausreichender Redundanz ausgelegt, um sicherzustellen, dass keine Kundendaten verloren gehen, selbst wenn Vorfälle auftreten.
RTO (Recovery Time Objective): 8 Stunden – Im Falle eines größeren Ausfalls, der die Verfügbarkeit beeinträchtigt, streben wir an, den Service innerhalb von 8 Stunden vollständig wiederherzustellen, über betroffene Regionen oder Produkte hinweg.

Geplante Wartungsfenster

Unsere kürzliche Systemumgestaltung ermöglicht wartungsfreie Betriebszeiten, sodass Kundenbetrieb auch während Systemverbesserungen kontinuierlich möglich ist. Wenn dies nicht möglich ist, benachrichtigen wir Kunden mindestens 24 Stunden vor Wartungsarbeiten gemäß unseren SLAs.

Mehr zu den jüngsten Änderungen unserer Systemarchitektur und deren Vorteilen finden Sie in unserem Blog hier: Evolving Intercoms Database Infrastructure lessons and progress.

Verwandte Artikel

SLAs-Berichterstattung

SLAs für Gespräche und tickets festlegen

Fin AI Agent per E-Mail bereitstellen

Wie man Fin Tasks einrichtet

Verwalten Sie die Eskalationsanweisungen und Regeln des Fin AI Agent