バッチテストでは、Finが実際の顧客の質問にどのように応答するかをシミュレートできます。これにより、コンテンツの網羅性を確認し、予期しない結果をデバッグし、ブランド、users、言語、Workflows全体でFinの動作を洗練できます。
主な利点/使用例:
複数のブランドとuserプロファイルにわたるFinの回答を本番稼働前に検証します。
各回答のソース、パーソナリティ、ガイダンスを検査してコンテンツのギャップを診断・修正します。
テスト実行を再利用可能なグループに整理し時間経過による変化を追跡します。
Finのタスク、アクション、カスタム回答を含む自動化のトリガーを確認します。
言語設定を管理しリアルタイム翻訳が期待通りに機能することを確認します。
Batch Testは、Intercomを使って会話をサポートするすべてのcustomers向けに設計されています。既存のFin customersでも、その可能性を探りたい方でも利用可能です。
バッチテストの使い方
1. 質問を生成する
メインナビゲーションからFin AI Agent > Testに移動し、質問の追加方法を選択します。
バッチテスト用の質問追加オプションは次のとおりです:
過去の会話から生成
すべての会話
特定のAIトピックから
質問を手動で追加
CSVファイルで質問をアップロード
これらのオプションにより、Finが本番稼働前に実際の関連顧客の問い合わせに対してテストされ、コンテンツのギャップを発見し、異なる対象やシナリオに応じて回答を最適化できます。
注意:
1テストグループあたり最大50件の質問をアップロードできます。
inboxから生成オプションを表示するには、過去90日間に最低1件の会話が必要です。
「人、会社、アカウントリストにアクセス可能」と「leadおよびuserプロファイルページにアクセス可能」の権限も必要です。
顧客の質問リストの作成方法
質問グループを生成する各方法には、それぞれ利点と理想的な使用例があります。
過去の会話から質問を生成する
過去30〜90日の最新の顧客会話に基づいて、最大50件の質問を自動生成できます。これにより、質問セットは現在顧客が尋ねている内容を正確に反映します。
これは現在の顧客ニーズを正確に反映した質問リストを素早く取得する方法です。
注意:このオプションは、最近の会話量(例:過去90日間)がある場合にのみ表示されます。
トピック別に質問を生成
この方法はAIトピックを使用して、実際の顧客の問い合わせに基づくトピック別の質問セットを生成します。特定のテーマに集中し、その対応状況を理解したい場合に特に有用です。
一般的な使用例:
季節的な顧客質問の急増(例:年末の税務問い合わせ)に備える。
特定トピックで新しいコンテンツを有効にした後のFinのパフォーマンスを評価する。
Topics Explorerで特定された高ボリュームまたは低CSATトピックを優先する。
注意:この方法はworkspaceでAIトピックが利用可能である必要があります。Topics Explorerは最近の会話データに基づいてインサイトを生成します。
質問を手動で追加する
既存のデータから質問を生成したくない場合は、質問リストをコピー&ペーストするか、1つずつ追加できます。この方法では、過去の会話に依存せず、正確な内容と表現を完全にコントロールできます。
一般的な使用例:
コンプライアンスに重要なシナリオや過去の会話データに現れないエッジケースを含む事前準備済みの質問リストがある。
過去の会話量がない新機能やポリシーに関する回答をテストしている。
CSVファイルで質問をアップロードする
この方法では、他のサポートプラットフォームなどで生成された質問セットをアップロードできます。最大50件のテスト質問を含む単一列の.csvファイルが必要です。
一般的な使用例:
キュレーションされたリストを一括で読み込む必要がある(例:トピック別、対象別、地域別)
チーム間で繰り返し評価を実施する必要がある
ローンチや季節的な急増に備え、30〜50の代表的な質問を一括アップロードしたい。
適切な質問生成方法を選択することで、Finのパフォーマンスを関連する顧客シナリオに対して評価・改善し、ギャップを特定して回答を向上させることができます。
2. テストを設定する
テストの質問は、すべてのコンテンツにアクセスし、ターゲティングなしで自動化をすべてトリガーするために、一般的なプレビューユーザーを使用して自動的に実行されます。これらのテスト設定を構成するには、ページ上部のManageドロップダウンをクリックし、次にSettings.を選択してください。
テストとして
Finをテストする方法を、usersまたはaudiencesをシミュレートして選択できます。Finを次のようにテストできます:
User or Lead - usersまたはleadsとしてFinをテストします。利用可能なコンテンツ、ガイダンス、および自動化(タスク、データコネクタ、カスタム回答)を使用します。user attributes(言語、場所、プランなど)に基づいてFinがどのように応答を調整するかを見るためにユーザーを選択します。これは、ローンチ前のセットアップ検証や展開後のトラブルシューティングに最適です。ワークスペース内の連絡先のドロップダウンリストから選択し、その特定のuserとしてシミュレートできます。特に、テストusersがすでにワークスペースに設定されている場合に便利です。ただし、ワークスペース内の実際のusers/leadsを検索して選択することもできます。
Audience - audienceとしてFinをテストします。audience固有のコンテンツとガイダンスが提供されます。自動化は実行されません。
Preview User - すべてのライブコンテンツ、ガイダンス、および自動化を含めてFinをテストします。
ブランド
ワークスペースで複数のブランドを設定している場合、テストしたいブランドを選択できます。例えば、このブランドのコンテンツが異なる場合があるため、Finの応答がこれらのニュアンスを正しく認識しているかをテストできます。
これらの設定でテストを再実行するには、Confirmをクリックしてください。
3. テストを実行して応答を確認する
テストを実行すると、各質問に対するFinの生成した応答を確認できます。
「Evaluate answer」パネルを使用して以下を確認します:
Personality設定(例:話し方のトーン)
Guidance(設定済みの場合)
Content sources Finが参照したもの
Automations(例:Fin Tasks、Data connectors、またはトリガーされたCustom Answers)
Batchテストでトリガーされた自動化は直接編集できませんが、パネルから関連する設定画面にリンクしているので、確認や迅速な調整が可能です。
4. 新しい質問を追加する
新しい質問を追加するには、メインナビゲーションからFin AI Agent > Testに移動し、+ add questionボタンをクリックします。ドロップダウンメニューが表示され、質問の追加方法のさまざまなオプションが提供されます。
Generate more from all conversations - 過去の会話から最大50件の質問を作成できます。
Generate more by Topic - ワークスペースでAI Topicsが利用可能な場合、会話のトピックに基づいて自動的に質問が生成されます。
Upload more from a CSV - CSVファイルをアップロードして、一度に最大50件の質問をインポートできます。
Add more manually - 質問のリストをコピー&ペーストするか、1つずつ追加できます。
5. 言語設定と翻訳を調整する
正確な言語での応答を得るために、Batchテストではテスト中にLanguage supportとReal-time translationの設定を簡単に確認・更新できます。
例えば、ロシア語の質問に英語で回答が返ってくるなど、期待した言語と異なる応答が表示される場合は、黄色のメッセージでその理由と解決方法が明確に示されます。
適切な設定を有効にして回答を更新すると、Finの応答が正しい言語で表示されます。
現在の設定に応じて、1つまたは両方の設定を有効にする必要がある場合があります。心配せずに、両方を同時にオンにしてこの画面に戻ってきてください。
6. Finの回答を評価する
Finの応答を確認し、事実の正確さ、適切なトーン、正しいデータアクセスや手順のトリガーが行われているかを評価します。
Acceptableを選択すると、Finの応答改善時に参照できる内部メモを追加できます。これらのメモはテストのCSV reportに含まれます。
Poorを選択した場合は、評価理由をリストから選択してください。ここで根本原因分析を行い、Finの回答が期待に沿わなかった理由を正しく特定し、即時改善を行います。
選択肢は以下の通りです:
正しいコンテンツを使用しなかった
顧客の質問を明確にしなかった
コンテンツを誤って使用した
トーンが適切でなかった
回答の長さが長すぎるか短すぎる
正しい言語で話さなかった
その他
注:これらの評価はFinを直接トレーニングしません。Improve this answerを使うか、コンテンツやガイダンスを更新してからテストを再実行してください。
Poor評価の回答の根本原因分析に役立つ指標については以下をお読みください。
正しいコンテンツを使用しなかった
Finが関連性のない、古い、または不完全な情報源に依存したため、回答が事実と異なる場合に使用します。
指標:
引用が間違ったページを指している
回答が古いポリシーや異なる製品/プランを参照している
重要な事実が欠落または誤っている
顧客の質問を明確にしなかった
質問があいまいで重要な詳細が欠けている場合や、Finが文脈を尋ねずに早まって回答した場合に使用します。
指標:
複数の意図を持つクエリ(「refund + upgrade」)
あいまいな用語(「issue with login」)
収集されていない顧客の詳細(プラン、地域、プラットフォーム)に依存している。
コンテンツの誤用
基となるコンテンツは正しいが、Finが誤って解釈、結合、または順序付けした場合に使用します。
指標:
手順の順序が間違っている
誤った対象/プランにルールを適用している
2つの手順を混同している
元のソースにある前提条件を省略している
トーンが適切でない
回答がブランドの声や状況の感受性に合っていない場合に使用します。
指標:
敏感なトピック(請求、セキュリティ)に対してカジュアルすぎる/陽気すぎる
単純なFAQに対して形式的すぎる
共感や安心感が欠けている
その他、ブランドの声に合わない場合
回答の長さが長すぎるまたは短すぎる
冗長さが意図やチャネルに合わない場合に使用します。
指標:
簡単なFAQに対して長文の回答
重要なコンプライアンス問題に対して短すぎる複数ステップの回答
重要な詳細が埋もれているか省略されている
適切な言語で話していない
回答の言語が顧客や地域に合っていない場合に使用します。
指標:
テスト対象の設定が非英語の場合に回答が英語で表示される(またはその逆)
同じスレッド内で言語が混在している回答
その他
上記のカテゴリに当てはまらない問題の場合に使用します(明確なメモを残してください)。
例:
Automationが期待通りにトリガーされた(またはされなかった)
ブランド/オーディエンスのターゲティング不一致
データコネクタが欠落している
説明のためにコンテンツからUI要素(スクリーンショット)が必要
7. Finの回答を改善する
評価に最も合う理由を選択したら、Improve this answerをクリックして、その特定の回答の根本原因に合わせた動的な推奨事項を表示します。
一般的な推奨事項には以下が含まれます:
以下のガイダンスの追加または修正:
トーンや回答の長さを調整する
あいまいなクエリに対してFinが明確化の質問をすることを確実にする
リスクの高い領域に対する明確なエスカレーションルールを確立する
特定の意図やブランドに対して優先されるソースコンテンツを定義する
コンプライアンスおよびポリシー要件が正しく適用されていることを確実にする
以下のスニペットの追加:
迅速で正確かつプライベートな知識の更新
古くなったり誤ったコンテンツに対する即時の応急処置
公開すべきでない内部専用の詳細
季節的または期間限定の情報(例:プロモーション)
特定の表現やパラメータを必要とする狭いエッジケース
以下のための記事の作成または更新:
顧客に広く必要とされるコアFAQ
見出し、番号付き手順、表、画像が役立つ複雑な手順
透明性と顧客のセルフサービス価値のために参照すべきコンテンツ
スニペットで繰り返し修正されるトピックは、記事に統合すべきです
特定の記事へのFinのアクセスを有効にする
対応言語の更新:
より多くの言語でサポートを提供する
受信言語を効果的に検出する
デフォルト言語でのヘルプコンテンツのリアルタイム翻訳を有効にする
注:OtherをPoor評価の理由として選択した場合、推奨される解決策が得られないことがあります。場合によっては、データコネクタの更新やFinが顧客の代わりに行動できる手順の作成が適切な解決策となることがあります。
例
この例は、Poor評価の質問に対する仮想的な根本原因分析と解決策を示しています。
質問:「支払いなしで新しいuserを追加するには?」
何が起こったか:Finはuserを招待する一般的な手順で回答しましたが、プランベースの請求のニュアンスを見落としました。
根本原因分析:回答の詳細は、無料席と有料席のプラン/請求の詳細をカバーしていない「Invite user」記事にFinが依存していたことを示しています(知識のギャップ)。
理由を選択:「正しいコンテンツを使用しなかった。」
提案:「Invite user」記事を更新して関連情報を含める;Finが回答前に関連プランタイプを特定するために明確化質問をするよう指導を追加する。
8. テストをフィルターし、一括更新する
回答状況:でテストをフィルターする
任意 - テストグループに追加されたすべての質問。
回答済みの質問 - Finが直接回答、曖昧さ解消、または自動化(例:Workflowsの引き継ぎ、Fin Taskなど)を提供した質問のみ。
未回答の質問 - Finが回答やフォローアップアクションを提供できなかった質問のみ。
回答評価:でテストをフィルターする
任意
良い
許容可能
悪い
質問の左側のチェックボックスを使って一括更新を行います。これにより、特定の質問をダウンロード、削除、テストグループの作成、またはその質問に関連する回答の更新が一括で可能になります。
9. テストグループの保存と整理
test groupsを使って、テストエリアで最大50件の質問と回答を整理・保存できます。これは一度にアップロードできる最大数で、関連する質問をグループ化して簡単にレビューや再利用ができます。各test groupは、特定のuserをシミュレートするなど、テスト時に使用した設定を保持し、いつでも同じ構成でテストを再実行できます。
ページ上部のManageをクリックし、+ 新しいグループを作成するオプションを選択します。
そこから、新しいtest groupに質問を追加するための柔軟なオプションがいくつかあります:
inboxから生成:既存の会話から直接質問を引き出します。すべての会話または特定のトピックから選択可能。
手動で追加:質問を一つずつ入力します。
CSVファイルをアップロード:CSVファイルを使って複数の質問を素早くインポートします。
グループの名前変更やtest groupの削除はManageをクリックして行います。
test groupの名前をクリックして追加のグループを作成するか、以前保存した別のグループを選択します。
test groupsはトピックごとに質問を整理するのに特に便利です。例えば、保険請求の質問をテスト・レビューした場合、「Insurance Claim Questions」というラベルのグループとして保存できます。これにより、その内容を後で簡単に再訪問、再実行、評価できます。
また、チームのコラボレーション管理にも最適です。Batch testはワークスペースレベルの機能なので、test groupsを使うことでチームメンバーはテスト実行を分けて管理できます。以前のテストを削除してスペースを空ける代わりに、グループに保存して全員の作業を保持できます。
10. CSVレポートをダウンロードする
すべての質問、回答、userが適用した評価、および各回答に使用されたソースをまとめたCSVファイルを生成できます。ページ上部のManageをクリックし、CSVレポートを取得を選択してください。
これは、チーム全体で結果を共有したり、上級リーダーがレビューするための可視性を高めるのに最適です。
よくある質問
Batch testでテストできないものは?
Fin Vision(画像認識)はまだBatch testセクションでサポートされていません。
Batch testを使用して解決策に対して料金が発生しますか?
いいえ、Fin AI Agent > Testページは無料で使用でき、Batch testを通じて生成されたAI回答に料金は発生しません。👌
テスト問題を自動生成できますか?
はい、テスト問題を自動生成できます。ただし、「Generate from inbox」オプションを表示するには、過去90日間にワークスペース内で最低1件の会話が必要です。
回答評価はFinをトレーニングしますか?
いいえ。Batch testは品質保証専用で、評価は改善点の特定に役立ちますが、Finの再トレーニングには使われません。
異なる言語でテストできますか?
はい。Batch testは不足している言語や翻訳設定をチェックしてフラグを立てるので、簡単に解決できます。
異なるusersをシミュレートできますか?
はい。Batch testでは、ワークスペース内のuserまたはleadを選択し、その特定のユーザー属性に基づいてFinがどのように応答するかを確認できます。
テストのリセットと再実行の違いは何ですか?
テストをリセットすると、会話履歴またはアップロードから別のバッチを選択できます。テストを再実行すると、バッチ内で提供したコンテンツの変更や回答評価に基づいて回答が再生成され、パフォーマンスの改善を続けられます。
なぜ「Generate from inbox」オプションが無効になっているのですか?
「Generate from inbox」オプションは、inbox内に十分な会話や関連トピックの会話がない場合に無効になります。
Batch testingは顧客データに影響しますか?
いいえ。Batch testingはシミュレーションのみで、顧客データを変更しません。
Batch testingが実行されるとき:
Data connectorsは設定されたテストまたはサンプルペイロードを使用します。結果は「answer uses sample response data」と明確に表示され、ライブAPIは呼び出されません。
Fin Tasks, Procedures, and Workflowsは実行されません。Batch testingは実際の会話でトリガーされるであろう内容のみを表示し、タグ付け、更新、エスカレーション、書き込みは実際には行われません。
これにより、Intercomデータや外部システムに影響を与えずに、安全に応答と動作を検証できます。






















