Monitorsは人間チームメイトのQAを行い、チームメイトの会話の質を大規模に評価・改善できます。どの会話をレビューするかを定義し、カスタムスコアカードを添付して評価し、レビュアーを割り当てます。すべて自動で行われます。

Monitorはレビューする会話を選択します。Scorecardは各会話の評価方法を定義します。例えば、正確さ、トーン、ポリシー遵守などの具体的な基準です。これらにより、チーム全体の会話品質を一貫してスケール可能に測定・改善できます。

人間エージェントQAの設定は2つのステップです：

品質基準を定義するScorecardを作成します。
どの会話をレビューし、誰がレビューし、レビューをチームにどうルーティングするかを選択するMonitorを設定します。

注意：この記事は人間エージェントQA用のMonitorsについて説明しています。Fin AI Agentの会話を評価するMonitorsについてはMonitors and Custom Scorecardsを参照してください。人間エージェントQA用MonitorsはPro add-onの一部として利用可能です。

Scorecardの作成方法

Fin AI Agent > Analyze > Monitorsに移動し、Scorecardsをクリックします。

+ New scorecardをクリックして自分のスコアカードを作成します：

まず評価対象を選択します。Human teammates assignedをクリックし、特定のチームのチームメイトか個別のチームメイトを選びます。

次にスコアカードの基準を追加します。まず+ Criteria > Create newをクリックします。

新しい基準を作成するときは、以下のステップを進めます：

1. 基準に名前を付ける

基準に短く明確な名前を付けます（例：SentimentやAnswer accuracy）。この名前はレポートに表示され、参照用に使われます。

2. 評価内容を説明する

基準が何をチェックし、どのように評価されるかを明確に説明します。この説明はAIが基準を評価するためのプロンプトで、正確であればあるほどAIは会話を正確に評価します。また、人間のレビュアーが同じ基準を一貫して適用するのにも役立ちます。

ヒント：効果的な説明文の書き方については効果的なMonitorとScorecard基準の書き方を参照してください。

3. 基準の評価方法を選択する

基準をAIで自動評価するか、人間のレビュアーが手動で評価するかを決めます。同じスコアカード内でAI評価と人間評価を混在させることも可能です。

注意：Scorecardの基準タイトルと説明は再利用可能です。一度作成した基準は複数のスコアカードに追加できます。過去の評価スコアは再利用できず、各スコアカードで新たに設定する必要があります。

4. 評価オプションを定義する

レビュアーやAIが選択できる評価値を追加します（例：Good、Okay、Poor）。各基準には最低2つの評価オプションが必要です。各評価オプションについて：

評価名を付ける（短く明確に）
選択される条件を説明する
スコアを割り当てる（例：100%、50%、0%）か、Not scoredとしてマークする

割り当てたスコアは、その評価が全体のレビュー得点にどう影響するかを決定します。

5. 評価理由を定義する（任意）

各評価オプションに対して、特定のスコアが付けられた理由を説明する評価理由のリストを定義できます。評価理由はレビュアーやAIがスコアを一貫して分類するのに役立ち、会話全体のパターンを特定しやすくします。

AIが基準を評価するとき、該当する場合は最も関連性の高い事前定義された理由を自動で選択します。該当する理由がなければ、AIは明確な説明を生成し、すべてのスコアに意味のある文脈を提供します。

6. 自動レビューを有効にする（任意）

Auto-review scorecardをオンにすると、スコアカードのQAプロセス全体を自動化できます。

有効にすると：

スコアカード内のすべての基準がAIで評価される場合、手動レビューのステップは完全にスキップされます。
チームメイトは不一致を見つけた場合、AIのスコアを手動で上書きできます。

ヒント：自動レビューはすべての基準がAI評価のスコアカードで最も効果的です。人間が必要な基準がある場合、その会話はUnreviewedキューに残ります。

スコアカードを設定する

スコアカードの基準を追加した後、全体のレビュー結果にどう影響するかを設定します。

スコアカード基準を重要としてマークする

基準をCriticalとしてマークできます。重要な基準が不合格評価を受けた場合、他の基準の評価に関わらずレビュー全体が不合格となります：

レビューはスコアカードビューでFailと表示されます。加重スコアが合格基準を満たしていても同様です。
これは合格基準とすべての重み付けを上書きします。
Not scoredの評価は基準を全体スコアから除外し、不合格を引き起こしません。

Criticalな基準は、コンプライアンス要件、安全性やポリシー遵守、エスカレーション対応などの譲れない基準に役立ちます。

スコアカード基準の重み付け

各基準には相対的重要度を定義するweightを割り当てられます。

weightは0から100の整数でなければなりません。
重みが高いほど、その基準が全体のレビュー得点に与える影響が大きくなります。

重みはレビュー得点に含まれる基準にのみ適用されます。重要度を反映するために重みを使います。例えば、正確さが速度より重要なら、正確さに高い重みを付けます。

注意: 重みは互いに相対的であり、100のスケールに固定されているわけではありません。合計は任意の数になる可能性があります。重要なのは各基準が占める割合です。合計50のうち25の重みを持つ基準は、合計100のうち50の重みを持つ基準と同じ貢献度を持ちます。

合格基準の追加

合格基準を定義できます。これはレビューが合格と見なされるために必要な最低総合スコアです。例えば、合格基準が80%の場合、80%未満のスコアのレビューは不合格とマークされます。

これは重み付けスコアリング後に評価され、重要な基準がすでにレビューに失敗していない場合に適用されます。

総合レビューのスコアの仕組み

各基準は定義された評価オプションを使って評価されます。
評価は割り当てられたスコアに寄与します（「Not scored」とマークされた場合は除外されます）。
含まれる基準は割り当てられた重みを使って組み合わされます。
重要な基準が不合格評価を受けた場合、総合レビューのスコアは0%になります。
最終スコアは合格基準と比較され、レビューが合格か不合格かが決まります。

3つの基準が最終スコアにどのように組み合わされるかの例を示します。

基準	選択された評価	評価スコア	重み
正確さ	良い	100%	60
トーン	まあまあ	50%	30
効率	良い	100%	10

総合スコア = (100x60 + 50x30 + 100x10) / (60+30+10) = 85%

モニターの作成方法

モニターはどの会話をレビューするかを定義します。基準を設定し、レビュアーを選び、品質評価用のスコアカードを添付します。稼働後はモニターが自動的に動作し、チームが対応すべき一致する会話を表示します。

人間の会話を評価するモニターを最大限に活用するには、少なくとも1つのスコアカードが必要です。

モニターにアクセスするには、Fin AI Agent > Analyze > Monitorsに移動します。+ Monitorをクリックして開始します。Finモニター、Teammateモニター、Generalモニターのテンプレートも選択可能です。

ステップ1: 会話の評価方法を選択

モニターに名前を付け、会話の評価方法を選択します。ここで作成したスコアカードをリンクして人間のエージェントを評価できます。

モニターにスコアカードを関連付けると、定義された基準に基づいて一致したすべての会話が自動的に評価されます。選択されると、会話がモニターに追加されるとすぐにスコアカードが実行され、結果がモニターに表示されて報告およびレビューに使われます。

ヒント: スコアカードを添付することでモニターが本当に役立ちます。添付がないと会話はフラグが立つだけでスコアは付けられません。

ここでレビュアーも選択できます。モニターに一致するすべての会話は自動的に選択されたレビュアーに割り当てられ、レビューは手動調整なしで一貫してルーティングされます。

注意: 添付されたスコアカードにAuto-reviewが有効な場合、レビュアーステータスはAuto-reviewedと表示されます。これらの会話はAIが失敗を検出するか基準を自信を持って評価できない場合を除き、手動のUnreviewedキューをバイパスします。

ステップ2: 会話を選択

モニターは以下を対象にできます:

ランダムサンプル — 例えば、基準QAのための週次のカスタマーサービス会話サンプル
特定のシグナルやリスクに基づくターゲットセット — 例えば、顧客が金融的脆弱性の兆候を示すすべての会話

会話を絞り込むには以下を使えます:

正確なフィルター — Resolution State、Topic、CX Scoreなど
フラグ基準 — フラグを立てたい会話の種類を説明する自然言語入力。効果的な基準の書き方についてはhow to write effective Monitor and Scorecard Criteriaを参照してください。

注意: 1つの会話が複数のモニターに表示されることがあります。各モニターは独立して動作するため、会話が複数のモニターの基準に一致すると、それぞれでフラグが立ちます。会話をクリックすると、そのモニターでフラグが立った理由が正確に表示されます。

ステップ3: モニタリングモードを選択

モニターの実行方法を選択:

継続的: 新しい会話が終了すると自動的に一致し、継続的に実行されます。
一回限り: 過去のデータからの会話のみを対象にバックフィルします。設定後に終了した新しい会話は含まれません。
スケジュール済み：毎日または毎週の繰り返しで実行され、チームメイトが定期的に会話を確認できるようにします。

ステップ4：開始日を選択します

Monitorが会話の評価を開始する日時を選択します。これにより、特定の時点から過去の会話に対してQAを実行し、その日以降の新しい一致する会話を継続的に表示できます。

注意：Monitorを初めて作成する際、最大90日分の過去の会話を遡って取得できます。その後はMonitorが自動的に新しい一致する会話をキャプチャし続けます。

ステップ5：会話が追加されるタイミングを選択します

会話は、人間のエージェントQA Monitorによる評価を受ける前にクローズされている必要があります。

レビューの提出

会話はさまざまなビューからレビューおよび提出できます。

すべてのビューで：

会話リストには、全体のレビュー得点（パーセンテージまたはFail）と個別の基準評価が列として表示されます。これにより、会話全体のパフォーマンスを簡単にスキャンし、失敗や低得点を見つけやすくなります。
会話を開いてScoreタブに移動すると、割り当てられたスコアカード、レビュー状況、全体スコア、および各基準の選択された評価が表示されます。このビューは最終スコアの決定方法を正確に示します。基準がAIで評価されている場合、Scoreタブの評価にカーソルを合わせると、選択された評価、基準の説明、AIの評価理由がツールチップで一度に表示されます。

レビューにアクセスして提出する方法はいくつかあります。Monitorをクリックすると、そのMonitorに関連するすべてのレビューを表示できます。またInboxページでAssigned to meをクリックすると、担当しているすべてのレビューを直接表示できます。

またはReviews receivedをクリックすると、レビュー対象のチームメイトとして提出されたすべてのレビューを直接表示できます。

レビューを完了するには：

Assigned to meビューから会話を開きます。
Scoreタブに移動し、各スコアカード基準を記入します。
AI生成のスコアは、評価をクリックして上書きできます。
すべての基準にスコアを付けたら、レビューを提出するか、必要に応じてさらに対応のために保留できます。レビューにメモを追加して、なぜそのスコアになったのかの背景を説明することも可能です。

注意：以前にFix neededやWon't fixなどの追加のレビュー状況を使用していた場合でも、既存のMonitorではこれらでフィルターできます。新しいMonitorはUnreviewedとSubmittedのみをサポートします。

レポート

Monitorレポートは会話の品質を追跡・測定するのに役立ちます。これらの指標を使って、品質の傾向を強調し、改善点を特定するレポートを作成できます。

すべてのMonitor指標はカスタムレポートビルダーで利用可能で、他のIntercomデータと組み合わせて会話品質のカスタマイズビューを作成できます。

Monitor指標を使ってカスタムレポートを作成するには、Reports > + New report > Create your ownに移動し、Monitorsカテゴリから必要な指標を選択します。スコアカード、期間、その他の属性でフィルターして、チームに最も関連するセグメントに絞り込めます。

スコアカード評価

指標名	説明
評価されたスコアカード	スコアカード評価の数。
スコアカード失敗率	失敗したスコアカード評価の割合。
スコアカード失敗数	失敗したスコアカード評価の数。
スコアカード合格率	合格したスコアカード評価の割合。
スコアカード合格数	合格したスコアカード評価の数。
スコアカードスコア	スコアカード評価に割り当てられたレビュー得点。

スコアカード基準評価

スコアカード基準評価は、指標を分類またはフィルターするための定性的データポイントです。

指標名	説明
評価されたスコアカード基準	スコアカード基準評価の数。
スコアカード基準失敗数	失敗したスコアカード基準評価の数。
スコアカード基準合格数	合格したスコアカード基準評価の数。
スコアカード基準スコア	スコアカード基準に割り当てられたレビュー得点。

レポート属性

属性名	説明
モニター	QAモニター
レビュー状況	レビューの現在の状況。人間のQAモニターの場合、値は`Unreviewed`または`Submitted`です。
レビュー担当者	レビューを完了した、またはレビューの責任者であるレビュアー。
レビュー対象者	レビューで評価されるチームメイト。
スコアカード	レビュー中に適用される評価テンプレート。
スコアカード結果	スコアカード評価の最終結果。例として、`Pass`、`Fail`、`N/A`、`Not complete`、`Not scored`があります。
スコアカードスコア	スコアカード評価によって算出された定量的スコア。

権限

スコアカードとモニターを編集し、会話にスコアを付けるには、チームメイトは両方の権限が必要です。

Fin AI Agent and Automation settingsにアクセス可能
レポートを作成、編集、社内共有可能

両方の権限を持たないチームメイトは人間のQAモニターを見ることができず、自分の作業のレビューのみをReviews receivedビューで見ることができます。自分のレビューに対してAIスコア基準を上書きすることはできません。

注意：人間のQAは2つの製品領域を組み合わせているため、チームメイトは両方の権限が必要です。スコアカードはFin AI Agentにあり、レビューのデータはレポートにフィードされます。片方の権限だけでは機能にアクセスできません。

よくある質問

複数のチームメイトが参加する会話はどのように評価されますか？

会話に割り当てられたチームメイトのみが評価されます。複数のチームメイトが参加していても、割り当てられたチームメイトの返信のみがスコア付けされ、残りの会話は文脈として使用されます。会話全体のスレッドはLLMに送られ、各部分は著者で注釈され、特定のチームメイトの返信のみを評価し、それ以外は文脈として扱うように指示されます。

人間のエージェントQA用のモニターを使用するにはどのプランが必要ですか？

人間のエージェントQA用のモニターはProアドオンの一部として利用可能です。標準のEssential、Advanced、Expertプランには含まれておらず、スコアカードと人間のQAモニターにアクセスするにはProアドオンをサブスクリプションに追加する必要があります。Proは席数ではなく会話量に基づいて価格設定されており、1,000件までのPro会話で月額99ドルから始まり、追加の会話量に応じて段階的な価格設定があります。

モニターやスコアカード基準の作成数に制限はありますか？

はい、各ワークスペースには以下の制限があります：

自然言語のフラグ基準を使用するライブモニターは20件までです（会話をフラグする内容を平易な英語で記述するフィールド）。正確なフィルター（Resolution State、Topic、CX Score）のみを使用するモニターはこの制限に含まれません。
すべてのスコアカードで合計20件のAIスコア基準があります。人間がスコア付けする基準はこの制限に含まれません。

AIスコアリングはレビューされた会話ごとに追加料金がかかりますか？

AIスコアリングには会話ごとの追加料金はなく、Proアドオンに含まれています。AIスコア基準がいくつ評価しても、モニターがいくつフラグを立てても、各会話はProの会話量に1回だけカウントされます。

月ごとの会話数に制限はありますか？

モニターには別の月間レビュー制限はありません。ライブモニターに一致するすべての会話が評価されます。請求対象はProの会話量であり、モニターのレビュー数ではありません。人間のレビューに回す会話量を制限したい場合は、モニターのサンプリング設定を構成し、ランダムサンプル（例：1日10会話）に制限できます。また、請求を予測可能にするためにProの会話量に上限を設定することもできます。その上限に達すると、請求期間の残りはPro会話の計測が停止します。

レビューするチームメイトごとに支払う必要がありますか？

いいえ、Proは席数ではなく会話量に基づいて価格設定されています。ワークスペースにProアドオンがあれば、任意の数のチームメイトの会話をレビューできます。請求対象はレビューされるチームメイト数やレビューする人数ではなく、ワークスペースが処理する会話量です。

人間のエージェントQAを設定・使用するにはどの権限が必要ですか？

スコアカードを作成し、モニターを編集し、会話にスコアを付けるには、両方が必要です：

Fin AI Agent and Automation settingsにアクセス可能、そして
レポートを作成、編集、社内共有可能

これらの権限のうち1つだけを持っている場合、自分の作業のレビューはReviews receivedビューで見ることができますが、作成や編集はできません。

重要な基準で不合格になるとレビューのスコアはゼロになりますか？

いいえ、加重スコアは通常通り計算されますが、レビューは加重スコアに関係なくFailとしてマークされます。重要なオーバーライドは合否結果に適用され、数値スコアには適用されません。

「Not scored」とは何を意味し、0%評価とどう違いますか？

「Not scored」評価は基準を完全にスキップすることを意味し、全体のレビュー得点に寄与せず、重要な基準であっても重大な失敗を引き起こしません。0%評価は加重×0として全体得点に寄与し、基準が重要ならレビューは不合格になります。特定の会話に適用されない基準（例：1回の返信で終了した会話のトーン基準）にはNot scoredを使用してください。

なぜ基準の重みは合計100である必要がないのですか？

重みは絶対値ではなく比率です。25と75の重みを持つ2つの基準は、1と3の重みを持つ2つの基準と同じスコア結果を生みます。重要なのは合計ではなく比率です。これにより、1つの基準の重みを調整しても他の基準を手動で再調整する必要がありません。

自動レビューはいつUnreviewedキューを完全にスキップしますか？

Auto-reviewは、以下のすべてが真の場合にのみUnreviewedキューをスキップします:

スコアカードにAuto-reviewが有効になっている
スコアカードのすべての基準がAIスコアである（人間によるスコアリング基準はない）
AIがすべての基準を自信を持ってスコアリングできた

たとえ1つの基準でも人間がスコアリングしている場合、またはAIが基準を自信を持ってスコアリングできなかった場合、会話は手動レビューのためにUnreviewedキューに送られます。

Monitorのタイプは作成後に変更できますか？

いいえ、一度MonitorがContinuous、One-time、またはScheduledとして作成されると、タイプは変更できません。別のタイプが必要な場合は、既存のMonitorをアーカイブして新しいものを作成してください。

スコアカードを編集した場合、既存のレビューはどうなりますか？

既存のレビューは、作成時に有効だったスコアカードのバージョンに基づいてスコアリングされたままです。新しいバージョンに対して再スコアリングされることはありません。

編集後にマッチした新しい会話は、更新されたスコアカードに基づいてスコアリングされます。そのため、現在のスコアカードに存在しない基準を参照している古いレビューが時折見られます。

基準を編集した後、なぜレビュアーが別の人に変わったのですか？

チームメンバーがレビューの基準を更新すると（AIスコアまたは手動スコアのいずれか）、そのレビューのレビュアーは最新の編集を行った人に自動的に設定されます。これはAuto-reviewされたものも含めすべてのスコアカードに適用されます。Auto-reviewされた会話を編集すると、Auto-reviewedがあなたの名前に置き換わります。

レビューのステータスは自動的に変更されません。

同じ会話が複数のMonitorに表示されることはありますか？

はい、会話は複数のMonitorの基準にマッチすることがあります。各Monitorは独立して実行および評価されるため、会話は異なるレビュアーから複数のスコアカード評価セットを持つことができます。会話を開くと、どのMonitorが各評価セットをフラグ付けしたかがわかります。

複数のスコアカードで基準を再利用できますか？

はい、一度基準（名前＋説明）を作成すれば、+ Criteriaメニューから他のスコアカードに添付できます。ただし、評価オプションとスコアは引き継がれません。基準を追加した各スコアカードで評価、スコア、重みを最初から設定する必要があります。

近日公開予定

Teammate coaching tips: レビューされているチームメンバーと、そのメンバーをレビューするマネージャー向けのAI駆動のコーチングヒント。
Calibration workflows: Calibrationは、共有例を評価し結果を比較することでレビュアーの評価基準を合わせ、一貫性と公平性を向上させます。
Dispute workflow: チームメンバーはレビューに異議を唱えることができます。
Evaluation against the knowledge base: 会話をサポートコンテンツやポリシーに対してスコアリングし、チームメンバーが内部プロセスに従っていることを支援します。
Sorting and rearranging columns in human QA monitors.

Monitorsでの人間チームメイトQAの始め方