Zum Hauptinhalt springen

Wie Fin Vision Bilder versteht

Wie Fin Bilder von Kunden versteht und nutzt, um schnelleren und genaueren Support zu bieten.

Verfasst von Beth-Ann Sher

Fin Vision ist eine integrierte Funktion des Fin AI Agent, die es ermöglicht, Bilder von Kunden zu analysieren und zu verstehen — Screenshots, Fotos und Bilder von Dokumenten (z. B. gescannte Seiten, Fotos von Belegen oder Formularen) — direkt in Gesprächen per Chat oder E-Mail.

Es ist keine Aktivierung oder Konfiguration erforderlich, und es entstehen keine zusätzlichen Kosten.

Fin Vision hilft dabei:

  • Probleme schneller zu diagnostizieren.

  • Lange Erklärungen der Kunden zu vermeiden.

  • Visuelle Inhalte wie Fehlermeldungen, Belege, Produktmängel und mehr zu extrahieren und zu verstehen.


Wie Fin Vision funktioniert

Fin Vision verwendet multimodale große Sprachmodelle (LLMs), um Bilder zu analysieren, die Kunden in Chat- oder E-Mail-Gesprächen senden.

Wenn ein Kunde ein Bild teilt, wandelt Fin es in eine strukturierte Textbeschreibung um, die Teil des Gesprächskontexts wird. Diese Beschreibung kann Folgendes enthalten:

  • Aus dem Bild extrahierter Text (OCR).

  • UI-Elemente und Beschriftungen, die in Screenshots sichtbar sind.

  • Referenznummern und Produktdetails wie Bestell-IDs oder Fehlercodes.

  • Kontextbezogene Erkenntnisse, die aus dem Bildinhalt abgeleitet werden.

Dieses visuelle Verständnis ermöglicht es Fin, Bilder genauso zu interpretieren wie schriftliche Kundenmitteilungen.

Mit diesem Kontext kann Fin:

  • Ihre knowledge base effektiver durchsuchen.

  • Aufgaben lösen, die visuelle Eingaben erfordern.

  • Handlungsorientierte Antworten basierend auf dem, was der Kunde tatsächlich sieht, geben.

Fin Vision nutzt multimodales Verständnis auf zwei Arten:

  • Um Bilder zu interpretieren, die Kunden in einem Gespräch senden.

  • Um Bilder in Ihren Support-Inhalten zu bewerten, wenn entschieden wird, ob sie zur Beantwortung einer Kundenfrage hilfreich sind.


Unterschied zwischen Bildanalyse und Bildantworten verstehen

Fin Vision konzentriert sich auf die Analyse von Bildern, die Kunden senden.

Fin kann auch Bilder aus Ihren bestehenden Support-Inhalten in seinen Antworten einbeziehen. Bei der Entscheidung, ob ein Bild eingefügt wird, analysiert Fin das Bild selbst mit multimodalen Modellen sowie den umgebenden Textkontext und die geplante Antwort.

Hinweis:

  • Fin generiert niemals Bilder — es verwendet nur Bilder, die bereits in Ihren Inhalten vorhanden sind.

    • Bilder erscheinen nach der Textantwort, nicht inline.

    • Fin verwendet bei der Bildauswahl keine Bildmetadaten oder Alt-Texte.

    • Fin kann nur Bilder aus Inhaltsquellen einbeziehen, die Bilddaten erhalten.


Anwendungsmöglichkeiten von Fin Vision

Branche

Beispielanwendungsfälle

FinTech

  • Fehlerbehebung: Screenshots von fehlgeschlagenen Überweisungen oder Anmeldeproblemen helfen Fin, gezielten Support zu bieten.

  • Überprüfung von Betrugswarnungen: Fin hilft, Phishing-Screenshots oder verdächtige Aktivitäten zu erkennen.

SaaS

  • Fehlerbehebung bei UI Bugs: Kunden teilen Screenshots von Fehlern oder unerwartetem UI-Verhalten; Fin extrahiert Fehlermeldungen und bietet Lösungen.

  • Onboarding-Hilfe: Fin kann Kunden durch unklare UI-Abläufe anhand geteilter Screenshots unterstützen.

  • Lizenzüberprüfung: Fin liest Lizenzschlüssel oder Kontonummern von hochgeladenen Rechnungen.

ecommerce

  • Rückgabe-/Erstattungsprüfung: Kunden laden Bilder von beschädigten oder falschen Produkten hoch; Fin bewertet die Berechtigung basierend auf Task instructions.

  • Versandprobleme: Kunden teilen Fotos von Verpackungen oder Inhalten; Fin erkennt fehlende Artikel oder Verpackungsschäden.

  • Rechnungsverarbeitung: Fin extrahiert Bestellnummern und Daten von Belegen oder Lieferscheinen.

Gaming/Gambling

  • Bug reporting: Spieler senden Screenshots von Fehlern oder Abstürzen; Fin interpretiert die Bilder und protokolliert Probleme.

  • Auszahlungsprobleme: Kunden laden Screenshots von fehlgeschlagenen Transaktionen hoch; Fin zieht Zeitstempel, Beträge und Transaktions-IDs.

  • Wettscheinprüfung: Fin liest und bestätigt Wettschein-Details aus hochgeladenen Bildern.


Maximierung von Fin Vision

Fin Vision funktioniert am besten in Kombination mit Fin Guidance, das Ihnen ermöglicht, zu definieren, wie Fin mit visuellen Informationen umgehen soll.

Verwenden Sie Fin Vision mit Fin Guidance

1. Belege lesen und interpretieren

Szenario:

Ein Kunde lädt ein Foto eines Kaufbelegs hoch und fragt: „Können Sie mir bei der Rückerstattung dieses Artikels helfen?“

Wie Fin Vision und Guidance zusammenarbeiten:

  • Fin Vision extrahiert wichtige Details aus dem Bild, wie den Artikelnamen, das Kaufdatum und den Gesamtbetrag.

  • Fin Guidance gibt Fin benutzerdefinierte Anweisungen, wie z. B.:
    „Wenn ein Kunde wegen einer Rückerstattung fragt und einen Beleg hochlädt, prüfen Sie, ob das Kaufdatum innerhalb von 30 Tagen liegt. Wenn ja, führen Sie ihn durch den Rückerstattungsprozess. Wenn nicht, erklären Sie höflich die Rückerstattungsrichtlinie.“

Ergebnis:
Fin kann automatisch die Berechtigung überprüfen und mit den richtigen nächsten Schritten antworten, wobei die extrahierten Belegdaten referenziert werden.

2. Bug-Meldung mit Screenshots

Szenario:
Ein Benutzer sendet einen Screenshot mit einer Fehlermeldung in der App und sagt: „Ich bekomme diesen Fehler – was soll ich tun?“

Wie Fin Vision und Guidance zusammenarbeiten:

  • Fin Vision analysiert den Screenshot, um den Fehlercode oder die Fehlermeldung zu identifizieren.

  • Fin Guidance weist Fin an:
    „Wenn in einem Screenshot ein Fehlercode erkannt wird, suchen Sie im help center nach diesem Code und geben Sie die entsprechenden Schritte zur Fehlerbehebung an.“

Ergebnis:
Fin kann den Fehler schnell bekannten Problemen zuordnen und gezielte Unterstützung bieten, wodurch Rückfragen reduziert werden.

3. Geräteidentifikation für Support

Szenario:
Ein Kunde lädt ein Foto seines Geräts hoch und fragt: „Ist mein Gerät mit Ihrem Service kompatibel?“

Wie Fin Vision und Guidance zusammenarbeiten:

  • Fin Vision erkennt Marke und Modell des Geräts auf dem Bild.

  • Fin Guidance sagt Fin:
    „Wenn ein Gerätemodell erkannt wird, prüfen Sie die Kompatibilitätsliste. Wenn kompatibel, bestätigen Sie dies und teilen Sie die Einrichtungshinweise mit. Wenn nicht, erklären Sie die Einschränkungen.“

Ergebnis:
Fin gibt eine personalisierte Antwort basierend auf dem tatsächlichen Gerät, was Genauigkeit und Kundenzufriedenheit verbessert.

4. Dokumentenprüfung

Szenario:
Ein Benutzer lädt ein Foto seines Ausweises zur Kontoverifizierung hoch.

Wie Fin Vision und Guidance zusammenarbeiten:

  • Fin Vision extrahiert Name, Geburtsdatum und Dokumenttyp.

  • Fin Guidance weist Fin an:
    „Wenn das hochgeladene Dokument ein gültiger Ausweis ist und mit den Kontodaten übereinstimmt, fahren Sie mit der Verifizierung fort. Wenn nicht, fordern Sie ein klareres Bild oder zusätzliche Dokumente an.“

Ergebnis:
Fin kann Teile des Verifizierungsprozesses automatisieren und die manuelle Prüfung reduzieren.

Guidance-Strategien

  • Bedingte Logik: Fin Guidance kann Regeln basierend auf den von Fin Vision erkannten Informationen festlegen (z. B. „Wenn der Beleg älter als 30 Tage ist, mache X“).

  • Fallbacks: Wenn Fin Vision benötigte Informationen nicht extrahieren kann, kann Guidance Fin anweisen, den Kunden um Klarstellung oder ein besseres Bild zu bitten.

  • Personalisierung: Guidance kann Antworten basierend auf dem visuellen Kontext anpassen, um Interaktionen menschlicher und relevanter zu gestalten.


FAQs

Welche Bildformate unterstützt Fin Vision?

Fin Vision unterstützt JPG-, PNG-, GIF- und HEIC-Dateien, die von Kunden geteilt werden.

Wie geht Fin mit Datenschutz und sensiblen Informationen in Bildern um?

Fin ist mit Blick auf Datenschutz konzipiert. Die Vision-Modelle werden ausdrücklich angewiesen, keine persönlichen oder sensiblen Informationen aus Bildern zu extrahieren, wie Kreditkartennummern, CVVs oder Ausweisdaten. Außerdem werden Bilder nur vorübergehend gespeichert und nach kurzer Zeit automatisch gelöscht.

Speichert Fin Bilder?

Bilder werden vorübergehend in einer sicheren Cloud-Umgebung gespeichert und nach kurzer Zeit automatisch gelöscht.

Müssen Kunden Bilder auf eine bestimmte Weise senden?

Nein, Kunden können Bilder in den Chat oder die E-Mail hochladen oder einfügen. Fin übernimmt den Rest.

Können Kunden mehrere Bilder senden?

Ja, Fin analysiert die letzten fünf Bilder einzeln und nutzt den Kontext für die Antworten.

Erzeugt oder sendet Fin Bilder?

Fin erzeugt keine Bilder. In einigen Gesprächen kann Fin Bilder aus Ihren vorhandenen Support-Inhalten in Antworten einbinden.

Unterstützt Fin Vision mehrere Sprachen?

Ja, Fin kann Text aus Bildern in vielen Sprachen extrahieren, wobei die Genauigkeit von Klarheit und Komplexität abhängt.

Kann ich Fin Vision ausschalten?

Nein, Fin Vision ist integriert und kann nicht deaktiviert werden. Es arbeitet automatisch als Teil von Fins Verständnis der Gespräche.

Kann Fin Vision Dokumente lesen?

Fin kann jetzt den Inhalt von PDF-Dateien lesen, die Kunden in einem Gespräch senden. Wenn ein Kunde eine PDF teilt, extrahiert Fin den Text aus der Datei und nutzt ihn als Kontext für die Antwort – genau wie bei einer geschriebenen Nachricht.

Früher wusste Fin, dass eine PDF gesendet wurde, konnte sie aber nicht lesen, was oft zu Folgefragen oder ungenauen Antworten führte. Das Lesen von PDFs ist in allen Plänen verfügbar, ohne dass eine Einrichtung erforderlich ist.

Welche PDF-Dateitypen kann Fin lesen?

Fin kann Standard-PDF-Dateien lesen, die Kunden in einem Gespräch senden. Der Textinhalt wird aus der Datei extrahiert und zur Verbesserung der Fin-Antwort verwendet. Fin liest PDFs, die Kunden im Gespräch senden – dies ist getrennt vom Hochladen von PDFs in Ihre content library als knowledge source.

Kann Fin HEIC-Bilder lesen?

Ja, Fin Vision kann High Efficiency Image Container (HEIC)-Dateien lesen und verarbeiten – das Standardfotoformat auf iPhones. Fin liest HEIC-Bilder und antwortet mit relevantem Kontext, genau wie bei jedem anderen unterstützten Bildformat.

Hat dies deine Frage beantwortet?