メインコンテンツにスキップ

Monitorsでの人間チームメイトQAの始め方

Monitorsの設定方法を学びます。カスタムスコアカードの作成、Monitorsの構成、レビューの提出方法を含みます。

対応者:Alissa Tyrangiel

Monitorsは人間チームメイトのQAを行い、チームメイトの会話の質を大規模に評価・改善できます。どの会話をレビューするかを定義し、カスタムスコアカードを添付して評価し、レビュアーを割り当てます。すべて自動で行われます。

Monitorはレビューする会話を選択します。Scorecardは各会話の評価方法を定義します。例えば、正確さ、トーン、ポリシー遵守などの具体的な基準です。これらにより、チーム全体の会話品質を一貫してスケーラブルに測定・改善できます。

人間エージェントQAの設定は2つのステップです:

  1. 品質基準を定義するScorecardを作成します。

  2. どの会話をレビューし、誰がレビューし、レビューがチームにどうルーティングされるかを選択するMonitorを設定します。

注意:この記事は人間エージェントQA用のMonitorsについて説明しています。Fin AI Agentの会話を評価するMonitorsについてはMonitors and Custom Scorecardsをご覧ください。人間エージェントQA用のMonitorsはPro add-onの一部として利用可能です。


Scorecardの作成方法

Fin AI Agent > Analyze > Monitorsに移動し、Scorecardsをクリックします。

+ New scorecardをクリックして自分のスコアカードを作成します:

まず評価対象を選択します。Human teammates assigned をクリックし、特定のチームのチームメイトか個別のチームメイトを選びます。

次にスコアカードの基準を追加します。まず+ Criteria > Create newをクリックします。

新しい基準を作成するときは、以下のステップを進めます:

1. 基準に名前を付ける

基準に短く明確な名前を付けます(例:SentimentやAnswer accuracy)。この名前はレポートに表示され、参照用に使われます。

2. 評価内容を説明する

基準が何をチェックし、どのように評価されるかを明確に説明します。この説明はAIが基準を評価するためのプロンプトで、正確であればあるほどAIは会話を正確に評価します。また、人間のレビュアーが同じ基準を一貫して適用するのにも役立ちます。

ヒント:効果的な説明文の書き方については効果的なMonitorとScorecard基準の書き方をご覧ください。

3. 基準の評価方法を選択する

基準をAIで自動評価するか、人間のレビュアーが手動で評価するかを決めます。同じスコアカード内でAI評価と人間評価を混在させることも可能です。

注意:Scorecardの基準タイトルと説明は再利用可能です。一度作成した基準は複数のスコアカードに追加できます。過去の評価スコアは再利用できず、各スコアカードで新たに設定する必要があります。

4. 評価オプションを定義する

レビュアーやAIが選択できる評価値を追加します(例:Good、Okay、Poor)。各基準には最低2つの評価オプションが必要です。各評価オプションについて:

  • 評価名を付ける(短く明確に)

  • 選択される条件を説明する

  • スコアを割り当てる(例:100%、50%、0%)またはNot scoredとしてマークする

割り当てたスコアは、その評価が全体のレビュー得点にどのように寄与するかを決定します。

4b. 評価理由を定義する(任意)

各評価オプションに対して、特定のスコアが付けられた理由を説明する評価理由のリストを定義できます。評価理由はレビュアーやAIがスコアを一貫して分類するのに役立ち、会話全体のパターンを特定しやすくします。

AIが基準を評価するとき、該当する場合は最も関連性の高い事前定義された理由を自動的に選択します。該当する理由がない場合は、AIが明確な説明を生成し、すべてのスコアに意味のある文脈を提供します。

6. 自動レビューを有効にする(任意)

Auto-review scorecardをオンにすると、スコアカードのQAプロセス全体を自動化できます。

有効にすると:

  • スコアカード内のすべての基準がAIで評価される場合、手動レビューのステップは完全にスキップされます。

  • チームメイトは不一致を見つけた場合、AIのスコアを手動で上書きできます。

ヒント:Auto-reviewはすべての基準がAI評価のスコアカードで最も効果的に機能します。人間が必要な基準がある場合、その会話はUnreviewedキューに表示され続けます。


スコアカードを構成する

スコアカードの基準を追加した後、全体のレビュー結果にどのように影響するかを設定します。

スコアカード基準を重要としてマークする

基準をCriticalとしてマークできます。重要な基準が不合格評価を受けた場合、他の基準の評価に関わらずレビュー全体が不合格とマークされます:

  • レビューはスコアカードビューでFailと表示されます。加重スコアが合格基準を満たしていても同様です。

  • これは合格基準とすべての重み付けを上書きします。

  • Not scoredの評価は基準を全体スコアから除外し、不合格を引き起こしません。

Critical基準は、コンプライアンス要件、安全性やポリシー遵守、エスカレーション対応などの譲れない基準に役立ちます。

スコアカード基準の重み付け

各基準には相対的重要度を定義するweightを割り当てられます。

  • weightは0から100の整数でなければなりません。

  • 重みが高いほど、その基準が全体のレビュー得点に与える影響が大きくなります。

重みはレビュー得点に含まれる基準にのみ適用されます。正確さが速度より重要な場合は、正確さに高い重みを付けるなど、重要なものを反映するために重みを使用します。

注意: 重みは互いに相対的であり、100のスケールに固定されているわけではありません。合計は任意の数になる可能性があります。重要なのは各基準が占める割合です。合計50のうち25の重みを持つ基準は、合計100のうち50の重みを持つ基準と同じ貢献度を持ちます。

合格基準の追加

合格基準を定義できます。これはレビューが合格と見なされるために必要な最低総合スコアです。例えば、合格基準が80%の場合、80%未満のスコアのレビューは不合格とマークされます。

これは加重スコアリング後に評価され、重大な基準がすでにレビューに失敗していない場合に適用されます。


総合レビューのスコアの仕組み

  1. 各基準は定義された評価オプションを使って評価されます。

  2. 評価は割り当てられたスコアに貢献します(「Not scored」とマークされた場合は除外されます)。

  3. 含まれる基準は割り当てられた重みを使って組み合わされます。

  4. 重大な基準が不合格の評価を受けた場合、総合レビューのスコアは0%になります。

  5. 最終スコアは合格基準と比較され、レビューが合格か不合格かが決まります。

3つの基準が最終スコアにどのように組み合わされるかの例を示します。

基準

選択された評価

評価スコア

重み

正確さ

良い

100%

60

トーン

まあまあ

50%

30

効率

良い

100%

10

総合スコア = (100x60 + 50x30 + 100x10) / (60+30+10) = 85%


モニターの作成方法

モニターはどの会話をレビューするかを定義します。基準を設定し、レビュアーを選び、品質評価用のスコアカードを添付します。稼働後はモニターが自動で動作し、チームが対応すべき一致した会話を表示します。

人間の会話を評価するモニターを最大限に活用するには、少なくとも1つのスコアカードが必要です。

モニターにアクセスするには、Fin AI Agent > Analyze > Monitorsに移動します。+ Monitorをクリックして開始します。Finモニター、Teammateモニター、Generalモニターのテンプレートも選べます。

ステップ1: 会話の評価方法を選択

モニターに名前を付け、会話の評価方法を選択します。ここで作成したスコアカードをリンクして人間のエージェントを評価できます。

モニターにスコアカードを関連付けると、定義された基準に基づいて一致したすべての会話が自動的に評価されます。選択されると、会話がモニターに追加されるとすぐにスコアカードが実行され、結果がモニターに表示されて報告とレビューに使われます。

ヒント: スコアカードを添付することがモニターを本当に有用にします。添付がなければ、会話はフラグが立てられてもスコアは付けられません。

ここでレビュアーも選択できます。モニターに一致するすべての会話は自動的に選択されたレビュアーに割り当てられ、レビューは手動の調整なしに一貫してルーティングされます。

注意: 添付されたスコアカードにAuto-reviewが有効になっている場合、レビュアーのステータスはAuto-reviewedと表示されます。これらの会話はAIが失敗を検出するか基準を自信を持って評価できない場合を除き、手動のUnreviewedキューをバイパスします。

ステップ2: 会話を選択

モニターは以下を対象にできます:

  • ランダムサンプル — 例えば、基準QAのための週次のカスタマーサービス会話サンプル

  • 特定のシグナルやリスクに基づくターゲットセット — 例えば、顧客が金融的脆弱性の兆候を示すすべての会話

会話を絞り込むには以下を使えます:

  • 正確なフィルター — 解決状態、トピック、CXスコアなど

  • フラグ基準 — フラグを立てたい会話の種類を説明する自然言語入力。効果的な基準の書き方についてはhow to write effective Monitor and Scorecard Criteriaを参照してください。

注意: 1つの会話が複数のモニターに表示されることがあります。各モニターは独立して動作するため、会話が複数のモニターの基準に一致すると、それぞれでフラグが立てられます。会話をクリックすると、そのモニターでフラグが立てられた理由が正確に表示されます。

ステップ3: モニタリングモードを選択

モニターの実行方法を選択:

  • 継続的: 新しい会話が終了すると自動的に一致し、継続的に実行されます。

  • 一回限り: 過去のデータからの会話のみを対象にバックフィルします。設定後に終了した新しい会話は含まれません。

  • スケジュール済み:毎日または毎週の定期的なペースで実行され、チームメイトが定期的に会話をレビューできるようにします。

ステップ4:開始日を選択してください

Monitorが会話の評価を開始する日時を選択します。これにより、特定の時点から過去の会話に対してQAを実行し、その日以降の新しい一致する会話を継続的に表示できます。

注意:Monitorを初めて作成する際、最大90日分の過去の会話を遡って取得できます。その後は、Monitorが自動的に新しい一致する会話をキャプチャし続けます。

ステップ5:会話が追加されるタイミングを選択してください

会話は、人間のエージェントQA Monitorによる評価の前にクローズされている必要があります。


レビューの提出

会話はさまざまなビューからレビューおよび提出できます。

すべてのビューで:

  • 会話リストには、全体のレビュー得点(パーセンテージまたはFail)と個別の基準評価が列として表示されます。これにより、会話全体のパフォーマンスを簡単にスキャンし、失敗や低得点を見つけやすくなります。

  • 会話を開いてScoreタブに移動すると、割り当てられたスコアカード、レビュー状況、全体スコア、および各基準の選択された評価が表示されます。このビューは最終スコアの決定方法を正確に示します。基準がAIで評価されている場合、Scoreタブの評価にカーソルを合わせると、選択された評価、基準の説明、AIの評価理由を一箇所で確認できるツールチップが表示されます。

レビューにアクセスして提出する方法はいくつかあります。Monitorをクリックすると関連するすべてのレビューが表示され、InboxページではAssigned to meをクリックして担当しているすべてのレビューを直接表示できます。

またはReviews receivedをクリックして、レビュー対象のチームメイトとして提出されたすべてのレビューを直接表示できます。

レビューを完了するには:

  1. Assigned to meビューから会話を開きます。

  2. Scoreタブに移動し、各スコアカード基準を入力します。

  3. AI生成のスコアは、評価をクリックして上書きできます。

  4. すべての基準にスコアを付けたら、レビューを提出するか、必要に応じてさらに対応のために残しておくことができます。レビューにメモを追加して、そのスコアの理由を説明することも可能です。

注意:以前にFix neededやWon't fixなどの追加のレビュー状態を使用していた場合でも、既存のMonitorではこれらでフィルターできます。新しいMonitorはUnreviewedとSubmittedのみをサポートします。


レポート

Monitorレポートは会話の品質を追跡・測定するのに役立ちます。これらの指標を使って品質の傾向を強調し、改善点を特定するレポートを作成できます。

すべてのMonitor指標はカスタムレポートビルダーで利用可能で、他のIntercomデータと組み合わせて会話品質のカスタマイズビューを作成できます。


Monitor指標を使ってカスタムレポートを作成するには、Reports > + New report > Create your ownに移動し、Monitorsカテゴリから必要な指標を選択します。スコアカード、期間、その他の属性でフィルターして、チームに最も関連するセグメントに絞り込めます。

スコアカード評価

指標名

説明

評価されたスコアカード

スコアカード評価の数。

スコアカード失敗率

失敗したスコアカード評価の割合。

スコアカード失敗数

失敗したスコアカード評価の数。

スコアカード合格率

合格したスコアカード評価の割合。

スコアカード合格数

合格したスコアカード評価の数。

スコアカードスコア

スコアカード評価に割り当てられたレビュー得点。

スコアカード基準評価

スコアカード基準評価は、指標を分類またはフィルターするための定性的なデータポイントです。

指標名

説明

評価されたスコアカード基準

スコアカード基準評価の数。

スコアカード基準失敗数

失敗したスコアカード基準評価の数。

スコアカード基準合格数

合格したスコアカード基準評価の数。

スコアカード基準スコア

スコアカード基準に割り当てられたレビュー得点。

レポート属性

属性名

説明

モニター

QAモニター

レビュー状況

レビューの現在の状況。人間のQAモニターの場合、値は未レビューまたは提出済みです。

レビュー担当者

レビューを完了した、またはレビューに責任を持つ担当者。

レビュー対象者

レビューで評価されるチームメイト。

スコアカード

レビュー中に適用される評価テンプレート。

スコアカード結果

スコアカード評価の最終結果。例として、合格不合格該当なし未完了未採点などがあります。

スコアカードスコア

スコアカード評価によって算出された定量的スコア。


権限

スコアカードとモニターを編集し、会話にスコアを付けるには、チームメイトは両方の権限が必要です。

  • Fin AI Agent and Automation settingsにアクセス可能

  • レポートを作成、編集、社内共有可能

両方の権限を持たないチームメイトは人間のQAモニターを見ることができず、自分の作業のレビューのみをReviews receivedビューで見ることができます。自分のレビューに対してAI採点基準を上書きすることはできません。

注意:人間のQAは2つの製品領域を組み合わせているため、チームメイトは両方の権限が必要です。スコアカードはFin AI Agentにあり、レビューのデータはレポートに反映されます。片方の権限だけでは機能にアクセスできません。


よくある質問

複数のチームメイトが参加する会話はどのように評価されますか?

会話に割り当てられたチームメイトのみが評価されます。複数のチームメイトが参加していても、割り当てられたチームメイトの返信のみがスコア付けされ、残りの会話は文脈として使用されます。会話全体のスレッドはLLMに送信され、各部分は著者で注釈され、特定のチームメイトの返信のみを評価し、それ以外は文脈として扱うように指示するターゲットプロンプトが使われます。

人間エージェントQA用のモニターを使用するにはどのプランが必要ですか?

人間エージェントQA用のモニターはProアドオンの一部として利用可能です。標準のEssential、Advanced、Expertプランには含まれておらず、スコアカードと人間QAモニターにアクセスするにはProアドオンをサブスクリプションに追加する必要があります。Proは席数ではなく会話量に基づく価格設定で、1,000件までのPro会話で月額99ドルから始まり、追加の会話量に応じて段階的な価格設定があります。

モニターやスコアカード基準の作成数に制限はありますか?

はい、各ワークスペースには以下の制限があります:

  • 自然言語のフラグ基準を使用するライブモニターは20件までです(会話をフラグ付けする内容を平易な英語で記述するフィールド)。正確なフィルター(解決状態、トピック、CXスコア)のみを使用するモニターはこの制限に含まれません。

  • すべてのスコアカードでAI採点基準は合計20件までです。人間採点基準はこの制限に含まれません。

AI採点はレビューされた会話ごとに追加料金がかかりますか?

AI採点には追加の会話ごとの料金はなく、Proアドオンに含まれています。AI採点基準がいくつ評価しても、モニターがいくつフラグを立てても、各会話はProの会話量に1回カウントされます。

月ごとの会話数に制限はありますか?

モニターには別の月間レビュー制限はありません。ライブモニターに一致するすべての会話が評価されます。請求対象はProの会話量であり、モニターのレビュー数ではありません。人間のレビューに回す会話量を制限したい場合は、モニターのサンプリング設定を調整し、ランダムサンプル(例:1日10会話)に制限できます。また、請求を予測可能にするためにProの会話量に上限を設定することも可能です。その上限に達すると、請求期間の残りはPro会話の計測が停止します。

レビューするチームメイトごとに支払う必要がありますか?

いいえ、Proは席数ではなく会話量に基づく価格設定です。ワークスペースにProアドオンがあれば、任意の数のチームメイトの会話をレビューできます。請求対象はレビューされるチームメイト数やレビュー担当者数ではなく、ワークスペースが処理する会話量です。

人間エージェントQAを設定・使用するにはどの権限が必要ですか?

スコアカードを作成し、モニターを編集し、会話にスコアを付けるには、以下の両方が必要です:

  • Fin AI Agent and Automation settingsにアクセス可能、そして

  • レポートを作成、編集、社内共有可能

これらの権限のうち1つだけを持っている場合、自分の作業のレビューはReviews receivedビューで見られますが、作成や編集はできません。

重要な基準で不合格の場合、レビューのスコアはゼロになりますか?

いいえ、加重スコアは通常通り計算されますが、レビューは加重スコアに関係なく不合格とマークされます。重要な基準のオーバーライドは合否結果に適用され、数値スコアには適用されません。

「未採点」とは何を意味し、0%評価とどう違いますか?

「未採点評価」は基準を完全にスキップすることを意味し、全体のレビュー得点に影響せず、重要な基準であっても重大な失敗を引き起こしません。0%評価は重み×0として全体得点に影響し、基準が重要ならレビューは不合格になります。未採点は特定の会話に該当しない基準(例:1回の返信で終わった会話のトーン基準)に使用します。

なぜ基準の重みは合計100である必要がないのですか?

重みは絶対値ではなく比率です。25と75の重みを持つ2つの基準は、1と3の重みを持つ2つの基準と同じスコア結果を生みます。重要なのは合計ではなく比率であり、1つの基準の重みを調整しても他の基準を手動で再調整する必要はありません。

自動レビューはいつ未レビューキューを完全にスキップしますか?

Auto-reviewは、以下のすべてが真の場合にのみUnreviewedキューをスキップします:

  • スコアカードにAuto-reviewが有効になっています

  • スコアカードのすべての基準がAIスコアリングされています(人間によるスコアリング基準はありません)

  • AIがすべての基準を自信を持ってスコアリングできました

たとえ1つの基準でも人間がスコアリングしている場合、またはAIが基準を自信を持ってスコアリングできなかった場合、その会話は手動レビューのためにUnreviewedキューに送られます。

Monitorのタイプは作成後に変更できますか?

いいえ、一度MonitorがContinuous、One-time、またはScheduledとして作成されると、タイプは変更できません。別のタイプが必要な場合は、既存のMonitorをアーカイブして新しいものを作成してください。

スコアカードを編集した場合、既存のレビューはどうなりますか?

既存のレビューは、それらが作成された時点で有効だったスコアカードのバージョンに基づいてスコアリングされたままです。新しいバージョンに対して再スコアリングされることはありません。

編集後にマッチした新しい会話は、更新されたスコアカードに基づいてスコアリングされます。これが、時折、現在のスコアカードに存在しない基準を参照している古いレビューが見られる理由です。

基準を編集した後、なぜレビュアーが別の人に変わったのですか?

チームメンバーがレビューの基準を更新すると(AIスコアリングまたは手動スコアリングのいずれか)、そのレビューのレビュアーは自動的に最新の編集を行った人に設定されます。これはAuto-reviewされたものを含むすべてのスコアカードに適用されます。Auto-reviewされた会話を編集すると、Auto-reviewedがあなたの名前に置き換わります。

レビューのステータスは自動的に変更されません。

同じ会話が複数のMonitorに表示されることはありますか?

はい、会話は複数のMonitorの基準にマッチすることがあります。各Monitorは独立して実行および評価されるため、会話は異なるレビュアーからの複数のスコアカード評価セットを持つことができます。会話を開くと、どのMonitorが各評価セットをフラグ付けしたかがわかります。

複数のスコアカードで基準を再利用できますか?

はい、一度基準(名前+説明)を作成すると、+ Criteriaメニューから他のスコアカードに添付できます。ただし、評価オプションとスコアは引き継がれません。基準を追加した各スコアカードで評価、スコア、重みを最初から設定する必要があります。


近日公開予定

  • Teammate coaching tips: レビューされているチームメンバーや、そのメンバーをレビューするマネージャー向けのAI駆動のコーチングヒント。

  • Calibration workflows: Calibrationは、共有例を評価し結果を比較することでレビュアーの評価基準を合わせ、フィードバックと品質測定の一貫性と公平性を向上させます。

  • Dispute workflow: チームメンバーはレビューに異議を唱えることができます。

  • Evaluation against the knowledge base: 会話をサポートコンテンツやポリシーに対してスコアリングし、チームメンバーが内部プロセスに従っていることを支援します。

  • Sorting and rearranging columns in human QA monitors.

こちらの回答で解決しましたか?