メインコンテンツにスキップ

Fin Visionが画像を理解する仕組み

Finが顧客から送られた画像をどのように理解し、より迅速かつ正確なサポートを提供するか。

対応者:Beth-Ann Sher

Fin VisionはFin AI Agentに組み込まれた機能で、顧客が送信した画像スクリーンショット、写真、書類の画像(例:スキャンしたページ、領収書やフォームの写真) )をチャットやメールの会話内で直接分析・理解します。

有効化や設定は不要で、追加費用もかかりません。

Fin Visionは以下を支援します:

  • 問題の迅速な診断。

  • 長い顧客説明の必要をなくします。

  • エラーメッセージ、領収書、製品の欠陥などの視覚的内容を抽出・理解します。


Fin Visionの仕組み

Fin Visionはマルチモーダル大規模言語モデル(LLM)を使用して、チャットやメールの会話で顧客が送信した画像を分析します。

顧客が画像を共有すると、Finはそれを構造化されたテキスト記述に変換し、会話の文脈の一部とします。この記述には以下が含まれる場合があります:

  • 画像から抽出されたテキスト(OCR)

  • スクリーンショットに表示されるUI要素とラベル

  • 注文IDやエラーコードなどの参照番号や製品詳細

  • 画像に表示されている内容から得られる文脈に基づく洞察

この視覚的理解により、Finは書かれた顧客メッセージと同様に画像について推論できます。

この文脈をもとに、Finは以下が可能です:

  • knowledge baseをより効果的に検索します。

  • 視覚的入力に依存するタスクを解決します。

  • 顧客が実際に見ている内容に基づいた実用的な回答を提供します。

Fin Visionはマルチモーダル理解を2つの方法で適用します:

  • 会話で顧客が送信する画像を解釈するため。

  • 顧客の質問に答えるのに役立つかどうかを判断する際に、サポートコンテンツ内の画像を評価するため。


画像分析と画像返信の違いの理解

Fin Visionは顧客が送信した画像の分析に焦点を当てています。

Finは返信に既存のサポートコンテンツの画像を含めることもあります。画像を含めるかどうかを決める際、Finはマルチモーダルモデルを使って画像自体を分析し、周囲の文脈や送信予定の回答と合わせて判断します。

注意:

  • Finは画像を生成せず、既に存在するコンテンツの画像のみを使用します。

    • 画像はテキスト返信の後に表示され、インラインではありません。

    • Finは画像選択時に画像のメタデータや代替テキストを使用しません。

    • Finは画像データを保持するコンテンツソースからのみ画像を含めることができます。


Fin Visionの活用方法

業界

利用例

FinTech

  • エラーのトラブルシューティング:送金失敗やログイン問題のスクリーンショットがFinの的確なサポートを助けます。

  • 不正警告の確認:Finはフィッシングのスクリーンショットや疑わしい活動を特定します。

SaaS

  • UIバグのトラブルシューティング:顧客がエラーや予期しないUI動作のスクリーンショットを共有し、Finがエラーメッセージを抽出して修正案を提供します。

  • オンボーディング支援:Finは共有されたスクリーンショットに基づき、不明瞭なUIフローで顧客をサポートします。

  • ライセンス確認:Finはアップロードされた請求書からライセンスキーやアカウント番号を読み取ります。

ecommerce

  • 返品・返金の検証:顧客が破損または誤った商品の画像をアップロードし、FinがTask instructionsに基づき適格性を評価します。

  • 配送問題:顧客が梱包や内容物の写真を共有し、Finが欠品や梱包破損を判断します。

  • 請求書処理:Finは領収書や納品書から注文番号や日付を抽出します。

Gaming/Gambling

  • Bug報告:プレイヤーが不具合やクラッシュのスクリーンショットを送信し、Finが視覚情報を解釈して問題を記録します。

  • 出金問題:顧客が取引失敗のスクリーンショットをアップロードし、Finがタイムスタンプ、金額、取引IDを抽出します。

  • ベットスリップの確認:Finはアップロードされた画像からベットスリップの詳細を読み取り、確認します。


Fin Visionの最大活用

Fin Visionは、Fin Guidanceと組み合わせることで最も効果的に機能し、Finが視覚情報に基づいてどのように行動すべきかを定義できます。

Fin Guidanceと一緒にFin Visionを使用する

1. レシートの読み取りと解釈

シナリオ:

顧客が購入レシートの写真をアップロードし、「この商品の返金を手伝ってもらえますか?」と尋ねます。

Fin VisionとGuidanceの連携方法:

  • Fin Visionは、商品名、購入日、合計金額など、画像から重要な詳細を抽出します。

  • Fin GuidanceはFinにカスタム指示を提供します。例:
    「顧客が返金について問い合わせてレシートをアップロードした場合、購入日が30日以内か確認してください。そうであれば返金手続きを案内し、そうでなければ返金ポリシーを丁寧に説明してください。」

結果:
Finは自動的に適格性を確認し、抽出したレシートの詳細を参照して正しい次のステップを案内できます。

2. スクリーンショットによるBug報告

シナリオ:
ユーザーがアプリのエラーメッセージを示すスクリーンショットを提出し、「このエラーが出るのですが、どうすればいいですか?」と言います。

Fin VisionとGuidanceの連携方法:

  • Fin Visionはスクリーンショットを分析してエラーコードやメッセージを特定します。

  • Fin GuidanceはFinに指示します。
    「スクリーンショットにエラーコードが検出された場合、そのコードをhelp centerで検索し、関連するトラブルシューティング手順を提供してください。」

結果:
Finはエラーを既知の問題と迅速に照合し、的確なサポートを提供してやり取りを減らします。

3. サポートのためのデバイス識別

シナリオ:
顧客がデバイスの写真をアップロードし、「私のデバイスはあなたのサービスに対応していますか?」と尋ねます。

Fin VisionとGuidanceの連携方法:

  • Fin Visionは画像からデバイスのメーカーとモデルを識別します。

  • Fin GuidanceはFinに指示します。
    「デバイスモデルが認識された場合、互換性リストを確認してください。対応していれば確認し、セットアップ手順を共有します。対応していなければ制限事項を説明してください。」

結果:
Finは実際のデバイスに基づいたパーソナライズされた回答を提供し、正確性と顧客満足度を向上させます。

4. 書類の検証

シナリオ:
ユーザーがアカウント確認のためにIDの写真をアップロードします。

Fin VisionとGuidanceの連携方法:

  • Fin Visionは名前、生年月日、書類の種類を抽出します。

  • Fin GuidanceはFinに指示します。
    「アップロードされた書類が有効なIDでアカウント情報と一致する場合は検証を進めてください。そうでなければ、より鮮明な画像や追加の書類を要求してください。」

結果:
Finは検証プロセスの一部を自動化し、手動レビューを減らせます。

Guidance戦略

  • 条件ロジック:Fin GuidanceはFin Visionが検出した内容に基づいてルールを設定できます(例:「レシートが30日以上前の場合はXを実行」)。

  • フォールバック:Fin Visionが必要な情報を抽出できない場合、GuidanceはFinに顧客に説明やより良い画像を求めるよう指示できます。

  • パーソナライズ:Guidanceは視覚的文脈に基づいて応答を調整し、より人間的で関連性の高いやり取りを実現します。


よくある質問

Fin Visionはどの画像フォーマットをサポートしていますか?

Fin Visionは顧客が共有するJPG、PNG、GIF、HEICファイルをサポートしています。

Finは画像内のプライバシーや機密情報をどのように扱いますか?

Finはプライバシーを重視して設計されています。ビジョンモデルはクレジットカード番号、CVV、身分証明書の詳細などの個人情報や機密情報を抽出しないよう明示的に指示されています。さらに、画像は一時的に保存され、短期間で自動的に削除されます。

Finは画像を保存しますか?

画像は安全なクラウド環境に一時的に保存され、短期間で自動的に削除されます。

顧客は画像を特定の方法で送信する必要がありますか?

いいえ、顧客はチャットやメールに画像をアップロードまたは貼り付けることができます。Finが残りを処理します。

顧客は複数の画像を送信できますか?

はい、Finは最新の5枚の画像を個別に分析し、その文脈を使って応答を導きます。

Finは画像を生成または送信しますか?

Finは画像を生成しません。一部の会話では、既存のサポートコンテンツからの画像を返信に含めることがあります。

Fin Visionは複数言語に対応していますか?

はい、Finは多くの言語の画像からテキストを抽出できますが、精度は画像の鮮明さや複雑さに依存します。

Fin Visionをオフにできますか?

いいえ、Fin Visionは組み込み機能で無効にできません。会話の理解の一部として自動的に動作します。

Fin Visionは書類を読み取れますか?

Finは現在、顧客が会話で送信するPDFファイルの内容を読み取れます。顧客がPDFを共有すると、Finはファイルからテキストを抽出し、書かれたメッセージと同様に回答の文脈として使用します。

以前は、FinはPDFが送信されたことは知っていましたが、内容を読むことができず、そのために追加の質問や不正確な回答が生じることがよくありました。PDFの読み取りはすべてのプランで利用可能で、設定は不要です。

FinはどのPDFファイルタイプを読み取れますか?

Finは会話で顧客から送信された標準的なPDFファイルを読み取ることができます。ファイルからテキスト内容を抽出し、Finの応答改善に使用します。Finは会話で顧客から送信されたPDFを読み取りますが、これはknowledge baseとしてのコンテンツライブラリへのPDFアップロードとは別です。

FinはHEIC画像を読み取れますか?

はい、Fin VisionはiPhoneのデフォルト写真形式であるHigh Efficiency Image Container(HEIC)ファイルを読み取り処理できます。FinはHEIC画像を読み取り、他の対応画像形式と同様に関連するコンテキストで応答します。

こちらの回答で解決しましたか?