効果的な基準を書くことは、実際の問題を浮き彫りにするMonitorとノイズでキューを埋めるMonitorを分けるものです。このガイドでは、Monitorフラグ基準とScorecard属性説明の両方のベストプラクティスを紹介します。Monitorは現在、Fin AI Agentの会話のみを評価します。
注意: MonitorsはProアドオンの一部として利用可能です。
Monitorフラグ基準とスコアカード属性説明の違い
これら2種類の基準は異なる動作をするため、書き方も異なります。
| Monitorフラグ基準 | スコアカード基準説明 |
目的 | どの会話をレビューするかを決定する | 各会話がどのように評価されるかを定義する |
ロジック | はい/いいえ - 各Monitorは独立して実行される | 競合 - AIが単一の最適な一致を選択する |
主な課題 | 誤検知(偽陽性)と見逃し(偽陰性)を減らす | 基準値間の重複を排除する |
Monitorフラグ基準作成のベストプラクティス
Monitorは独立したはい/いいえチェックとして動作します。複数のMonitorが同じ会話をフラグすることがあり、それは問題ありません。このため、区別よりも精度が重要です。
1. 推測された意図ではなく、観察可能な行動を記述する
会話に現れるものに焦点を当てる。
避けるべき例:顧客が苛立っている
推奨例:顧客が「これは受け入れられない」「非常に失望している」「これはばかげている」などのフレーズを使う。
AIは感情的な解釈よりも明確なシグナルを評価する方が性能が良い。
2. 具体的な例を含める
例は曖昧さを大幅に減らす。
明確なフレーズパターンを使う:例、解約してください、アカウントを閉じてください、データを削除してください
例はモデルを実際の言語に結びつける。
3. 明確な除外を追加する
誤検知を減らすことはMonitorにとって重要。
例:顧客が汚い言葉を使う。除外:damnやcrapのような軽い言葉。Monitorをトリガーすべきでない場合は明確に記述する。
4. 定量的な閾値を使う
あいまいな表現は避ける。
悪い例:Finが短い返答をする。
良い例:Finの返答が50語未満である。
具体的な閾値は一貫性を向上させる。
5. 複数ステップのロジックは番号付き基準に分ける
Monitorが順序やパターンに依存する場合は、明確に構造化する:
顧客が苛立ちを表現する。
Finが感情を認識せずに応答する。
顧客が不満を繰り返す。
これによりロジックが決定的になり、評価が容易になる。
6. シンプルに保つ
ルールが単純なら、複雑にしすぎない。
例:Finが次のステップを提案する(例:キャッシュをクリアしてください、ログアウトして再ログインしてください、このリンクをクリックしてください)。
明快さは複雑さに勝る。
7. 「explicitly」を使って直接的な顧客の言葉を要求する
Monitorが顧客が直接何かを述べた場合にのみトリガーすべきなら、基準に「explicitly」という言葉を含める。これがないと、AIは文脈から意図を推測し、行動が示唆されただけの会話にも一致する可能性がある。
「explicitly」なし:顧客が折り返し電話を要求する — AIが「セキュリティチームに繋いでくれますか?」を折り返し電話の要求と推測する可能性がある。
「explicitly」あり:顧客が明確に折り返し電話を要求する — 顧客が直接「電話をもらえますか?」「電話してください」と言った場合のみ一致。
ヒント: Monitorテストツールを使って、基準を実際の会話で検証し、オンにする前に調整してください。フラグ基準を更新し、結果がMonitorが捉えたい内容を正確に反映するまでテストを繰り返す。
スコアカード基準説明作成のベストプラクティス
基本原則:基準は競合する。AIは全リストを見て、各基準に対して最も適したものを選ぶ。選択を明確にするのがあなたの役割。
1. 明確で簡潔な名前を使う
名前は短く具体的に。リストを読む人が説明を開かなくても目的がすぐに分かるように。
悪い例:顧客コミュニケーションの問題
良い例:トーン - 無礼または軽視的
2. 包括的な説明を書く
説明は分類の信号の大部分を担う。
該当するすべての会話タイプを明確に記述する。
キーワード、一般的な表現、例を含める。
エッジケースも考慮して含める。
良い例と悪い例を明確にする。
説明はAIが実際の言語表現を認識しやすくするもので、抽象的な定義だけでなく。
3. 基準を明確に区別する
同じスコアカード内の基準は概念的に競合してはいけない。
意味の重複を避ける。
各属性に明確な境界を設ける。
同じ理由で2つの属性が適用される可能性がある場合は、どちらかを洗練させる。
1つの会話がスコアカード内の複数基準に該当しても問題ない。重要なのは各基準セット内で値が明確に区別できること。
4. 品質を体系的に評価する
分類体系を見直す際、各基準を以下で評価する:
明快さ/簡潔さ
説明の包括性
基準の区別
重複する基準(あれば)
最終スコア+コメント
この構造化されたレビューにより定義を厳密にし、曖昧さを減らすことができ、分類性能が直接向上する。
よくある質問
フラグ基準はどのくらいの長さが適切ですか?
フラグ基準はどのくらいの長さが適切ですか?
固定の長さはなく、行動を正確に記述するのに必要な長さが適切です。単純なMonitorなら2〜3文で十分かもしれません。複雑なもの(多段階の失敗パターン検出など)は構造化された番号付き説明が必要かもしれません。詳細を多めに書く方が良いです。
同じスコアカード基準を複数のスコアカードで使えますか?
同じスコアカード基準を複数のスコアカードで使えますか?
はい。基準のタイトルと説明は再利用可能です。一度作成した基準は複数のスコアカードに追加できます。ただし、以前の評価スコアは再利用できず、各スコアカードで最初から設定する必要があります。
Monitorフラグ基準とスコアカード基準説明の違いは?
Monitorフラグ基準とスコアカード基準説明の違いは?
Monitorフラグ基準は会話がMonitorに取り込まれるかどうかを決める、はい/いいえのフィルターです。スコアカード基準説明は、会話がMonitorに入った後にどのように評価されるかを定義します。Monitorは網、スコアカードは定規のようなものと考えてください。
