効果的な基準を書くことは、実際の問題を浮き彫りにするMonitorとノイズでキューを埋めるMonitorを分けるものです。このガイドでは、Monitorフラグ基準とScorecard属性説明の両方のベストプラクティスを紹介します。Monitorは現在、Fin AI Agentの会話のみを評価します。

注意: MonitorsはProアドオンの一部として利用可能です。

Monitorフラグ基準とスコアカード属性説明の違い

これら2種類の基準は異なる動作をするため、書き方も異なります。

	Monitorフラグ基準	スコアカード基準説明
目的	どの会話をレビューするかを決定する	各会話がどのように評価されるかを定義する
ロジック	はい/いいえ - 各Monitorは独立して実行される	競合 - AIが単一の最適な一致を選択する
主な課題	誤検知（偽陽性）と見逃し（偽陰性）を減らす	基準値間の重複を排除する

Monitorフラグ基準作成のベストプラクティス

Monitorは独立したはい/いいえチェックとして動作します。複数のMonitorが同じ会話をフラグすることがあり、それは問題ありません。このため、区別よりも精度が重要です。

1. 推測された意図ではなく、観察可能な行動を記述する

会話に現れるものに焦点を当てる。
避けるべき例：顧客が苛立っている
推奨例：顧客が「これは受け入れられない」「非常に失望している」「これはばかげている」などのフレーズを使う。

AIは感情的な解釈よりも明確なシグナルを評価する方が性能が良い。

2. 具体的な例を含める

例は曖昧さを大幅に減らす。
明確なフレーズパターンを使う：例、解約してください、アカウントを閉じてください、データを削除してください
例はモデルを実際の言語に結びつける。

3. 明確な除外を追加する

誤検知を減らすことはMonitorにとって重要。

例：顧客が汚い言葉を使う。除外：damnやcrapのような軽い言葉。Monitorをトリガーすべきでない場合は明確に記述する。

4. 定量的な閾値を使う

あいまいな表現は避ける。
悪い例：Finが短い返答をする。
良い例：Finの返答が50語未満である。
具体的な閾値は一貫性を向上させる。

5. 複数ステップのロジックは番号付き基準に分ける

Monitorが順序やパターンに依存する場合は、明確に構造化する：

顧客が苛立ちを表現する。
Finが感情を認識せずに応答する。
顧客が不満を繰り返す。

これによりロジックが決定的になり、評価が容易になる。

6. シンプルに保つ

ルールが単純なら、複雑にしすぎない。
例：Finが次のステップを提案する（例：キャッシュをクリアしてください、ログアウトして再ログインしてください、このリンクをクリックしてください）。
明快さは複雑さに勝る。

7. 「explicitly」を使って直接的な顧客の言葉を要求する

Monitorが顧客が直接何かを述べた場合にのみトリガーすべきなら、基準に「explicitly」という言葉を含める。これがないと、AIは文脈から意図を推測し、行動が示唆されただけの会話にも一致する可能性がある。

「explicitly」なし：顧客が折り返し電話を要求する — AIが「セキュリティチームに繋いでくれますか？」を折り返し電話の要求と推測する可能性がある。
「explicitly」あり：顧客が明確に折り返し電話を要求する — 顧客が直接「電話をもらえますか？」「電話してください」と言った場合のみ一致。

ヒント: Monitorテストツールを使って、基準を実際の会話で検証し、オンにする前に調整してください。フラグ基準を更新し、結果がMonitorが捉えたい内容を正確に反映するまでテストを繰り返す。

スコアカード基準説明作成のベストプラクティス

基本原則：基準は競合する。AIは全リストを見て、各基準に対して最も適したものを選ぶ。選択を明確にするのがあなたの役割。

1. 明確で簡潔な名前を使う

名前は短く具体的に。リストを読む人が説明を開かなくても目的がすぐに分かるように。
悪い例：顧客コミュニケーションの問題
良い例：トーン - 無礼または軽視的

2. 包括的な説明を書く

説明は分類の信号の大部分を担う。

該当するすべての会話タイプを明確に記述する。
キーワード、一般的な表現、例を含める。
エッジケースも考慮して含める。
良い例と悪い例を明確にする。

説明はAIが実際の言語表現を認識しやすくするもので、抽象的な定義だけでなく。

3. 基準を明確に区別する

同じスコアカード内の基準は概念的に競合してはいけない。

意味の重複を避ける。
各属性に明確な境界を設ける。
同じ理由で2つの属性が適用される可能性がある場合は、どちらかを洗練させる。

1つの会話がスコアカード内の複数基準に該当しても問題ない。重要なのは各基準セット内で値が明確に区別できること。

4. 品質を体系的に評価する

分類体系を見直す際、各基準を以下で評価する：

明快さ／簡潔さ
説明の包括性
基準の区別
重複する基準（あれば）
最終スコア＋コメント

この構造化されたレビューにより定義を厳密にし、曖昧さを減らすことができ、分類性能が直接向上する。

よくある質問

フラグ基準はどのくらいの長さが適切ですか？

固定の長さはなく、行動を正確に記述するのに必要な長さが適切です。単純なMonitorなら2〜3文で十分かもしれません。複雑なもの（多段階の失敗パターン検出など）は構造化された番号付き説明が必要かもしれません。詳細を多めに書く方が良いです。

同じスコアカード基準を複数のスコアカードで使えますか？

はい。基準のタイトルと説明は再利用可能です。一度作成した基準は複数のスコアカードに追加できます。ただし、以前の評価スコアは再利用できず、各スコアカードで最初から設定する必要があります。

Monitorフラグ基準とスコアカード基準説明の違いは？

Monitorフラグ基準は会話がMonitorに取り込まれるかどうかを決める、はい/いいえのフィルターです。スコアカード基準説明は、会話がMonitorに入った後にどのように評価されるかを定義します。Monitorは網、スコアカードは定規のようなものと考えてください。

Monitorsでの人間チームメイトQAの始め方

効果的なMonitor＆Scorecard基準の書き方