カスタムスコアカードは、正確さ、トーン、ポリシー遵守など、重要な基準を明確に設定することでチームの理想像を定義します。スコアカードはMonitorsと連携します。Monitorはレビュー対象の会話を定義し、スコアカードは各会話の評価方法を定義します。MonitorsはFin AI Agentの会話と人間のチームメイトの会話の両方を評価できます。

異なるMonitorsに対して複数のスコアカードを持つことができます。Monitorの設定画面から関連付けるスコアカードを選択してください。

注意: スコアカードはProアドオンの一部として利用可能です。

スコアカードを作成するには

Fin AI Agent > Analyze > Monitorsに移動し、Scorecardsをクリックします。既成のFin Quality Scorecardを使うか、+ New scorecardをクリックして独自のスコアカードを作成できます。

新しいスコアカード基準を作成する

まずスコアカード基準を追加します。New scorecard > + Criteria > Create newをクリックしてください。

新しい属性を作成する際は、以下の手順に従ってください。

1. 基準の名前を付ける

基準には短く明確な名前を付けます（例：SentimentやAnswer accuracy）。この名前はレポートに表示され、参照用に使われます。

2. 評価対象の説明を追加する

基準が何をチェックし、どのように評価されるかを明確に説明してください。この説明はAIが基準を評価する際の指示となり、正確であればあるほどAIの評価も正確になります。また、人間のレビュアーが一貫して同じ基準を適用するのにも役立ちます。

ヒント: 効果的な説明文の作成方法については効果的なMonitorおよびScorecard基準の書き方を参照してください。

3. 基準の評価方法を選択する

基準をAIによる自動評価にするか、人間のレビュアーによる手動評価にするかを決めます。同じスコアカード内でAI評価と人間評価を混在させることも可能です。

注意: スコアカード基準のタイトルと説明は再利用可能です。一度作成した属性は複数のスコアカードに追加できます。過去の評価スコアは再利用できず、各スコアカードで新たに設定する必要があります。

4. 評価オプションを定義する

レビュアーやAIが選択できる評価値を追加します（例：Good、Okay、Poor）。各属性には最低2つの評価オプションが必要です。各評価オプションについて以下を行います。

評価の名前（短く明確に）を付ける
いつ選択されるべきかを説明する
スコアを割り当てる（例：100%、50%、0%）か、評価なしとしてマークする

割り当てたスコアは、その評価が全体のレビュー得点にどのように寄与するかを決定します。

4b. 評価理由を定義する（任意）

各評価オプションに対して、なぜそのスコアが付けられたかを説明する評価理由のリストを定義できます。評価理由はレビュアーやAIがスコアを一貫して分類するのに役立ち、会話全体のパターンを特定しやすくします。

AIが基準を評価する際、該当する場合は最も関連性の高い事前定義された理由を自動的に選択します。該当する理由がない場合は、AIが明確な説明を生成し、すべてのスコアに意味のある文脈を提供します。

5. 自動レビューを有効にする（任意）

Auto-review scorecardをオンにすると、スコアカードのQAプロセス全体を自動化できます。

有効にすると：

スコアカード内のすべての基準がAIで評価される場合、手動レビューのステップは完全にスキップされます。
チームメイトは不一致を見つけた場合、AIのスコアを手動で上書きできます。

ヒント: 自動レビューはすべての基準がAI評価の場合に最も効果的です。人間の評価が必要な基準がある場合、その会話は未レビューキューに表示され続けます。

スコアカードを設定する

スコアカード基準を追加した後、全体のレビュー結果にどのように影響するかを設定します。

スコアカード基準を重要としてマークする

基準をCriticalとしてマークできます。重要な基準が不合格評価を受けた場合、レビュー全体が不合格になります。

全体のレビュー得点は0%になります。
これはすべての重み付けを上書きします。
評価なしの評価は基準を全体得点から除外し、不合格を引き起こしません。

重要な基準は、コンプライアンス要件、安全性やポリシー遵守、エスカレーション対応などの譲れない基準に役立ちます。

スコアカード基準の重み付け

各基準には相対的重要度を定義するweightを割り当てられます。

重みは0から100の整数でなければなりません。
重みが高いほど、その基準が全体のレビュー得点に与える影響が大きくなります。

重みは重要度を反映するために使います。例えば、正確さが速度より重要な場合は、正確さに高い重みを付けます。

注意:

重みは互いに対して相対的であり、100のスケールに固定されているわけではありません。合計は任意の数値になり得ます。重要なのは各基準が占める割合です。例えば、合計50のうち25の重みを持つ基準は、合計100のうち50の重みを持つ基準と同じ寄与をします。
スコアカードUIから「Include in review score」オプションは削除されました。

合格閾値の追加

レビューが合格と見なされるために必要な最低全体得点であるpass thresholdを定義できます。例えば、合格閾値が80%の場合、80%未満のレビューは不合格とマークされます。

これは重み付けスコアリング後に評価され、重要な基準がすでに不合格の場合は適用されません。

全体のレビュー得点の仕組み

各基準は定義された評価オプションを使って評価されます。
評価は割り当てられたスコアを寄与します（評価なしの場合は除外されます）。
すべての基準は割り当てられた重みを使って組み合わされます。
重要な基準が不合格評価を受けた場合、全体のレビュー得点は0%になります。
最終得点は合格閾値と比較され、レビューが合格か不合格かが決まります。

3つの基準が最終得点にどのように組み合わされるかの例を示します。

基準	選択された評価	評価スコア	重み
Accuracy	Good	100%	60
Tone	Okay	50%	30
Efficiency	Good	100%	10

全体得点 = (100x60 + 50x30 + 100x10) / (60+30+10) = 85%

スコアの確認場所

レビューが完了すると、会話リストと各会話内の両方でスコアが確認できます。

Monitorでは、会話リストに全体のレビュー得点（パーセンテージまたはFail）と個別の基準評価が列として表示されます。これにより、会話全体のパフォーマンスを簡単に確認し、不合格や低スコアを見つけやすくなります。

会話を開いてReviewタブに移動すると、割り当てられたスコアカード、レビュー状況、全体得点、各基準の選択評価が確認できます。このビューは最終得点の決定方法を正確に示します。

FinがAIを使って基準を評価した場合、Reviewタブの評価にカーソルを合わせると、選択された評価、基準の説明、Finの評価理由がツールチップで一度に表示されます。

チームメイトが自分のスコアを見る方法

チームメイトは自分の会話に対して提出されたレビューをInboxに行き、左サイドバーのReview queue > Reviews receivedをクリックして確認できます。

InboxのサイドバーでReview queueセクションが展開され、All reviews、Assigned to me、Reviews receivedのオプションが表示されています。

このビューには完了したすべてのレビューが表示されます。

全体のレビュー得点（合格は緑、不合格は赤で色分け）
レビューを提出した人（名前付きレビュアーまたはAI自動レビューがスコアカードを実行した場合はAuto-reviewed）
どのMonitorでレビューが提出されたか
レビュー状況

チームメイトは任意のレビューをクリックしてスコアカードの詳細を確認できます。

注意: Reviewer列に「Auto-reviewed」が表示されている場合、そのスコアカードはAIによって自動的に評価されました。レビューをクリックするとFinの各評価理由が確認できます。

よくある質問

スコアカード基準を複数のスコアカードで再利用できますか？

はい、基準のタイトルと説明は再利用可能です。一度作成した基準は複数のスコアカードに追加できます。ただし、過去の評価スコアは再利用できず、各スコアカードで新たに設定する必要があります。

Monitorにスコアカードを添付しなかった場合はどうなりますか？

Monitorは基準に合致する会話をフラグしますが、スコアリングは行われません。レビュアーはスコアカード基準を記入せずにフラグされた会話を確認します。評価を有効にするには、Monitor設定時にスコアカードを添付してください。

AI評価と手動評価の基準を同じスコアカードで混在させることはできますか？

はい。基準ごとにAIまたは人間のレビュアーが評価を担当するか選択できます。Auto-reviewが有効で、手動評価が必要な基準がある場合、その会話は未レビューキューに表示され続けます。

重要な基準とは何ですか？

重要な基準が不合格評価を受けると、他の基準の評価に関係なく全体のレビュー得点は0%になります。これはコンプライアンス、安全性、エスカレーション対応など、単一の不合格がすべてを上書きすべき譲れない基準に役立ちます。

モニターの説明

効果的なMonitor＆Scorecard基準の書き方

モニターの作成方法

モニターのレポート作成

Monitorsでの人間チームメイトQAの始め方

スコアカードの作成と設定