Rédiger des critères efficaces est ce qui distingue un Monitor qui met en lumière de vrais problèmes d’un autre qui inonde votre file d’attente de bruit. Ce guide couvre les meilleures pratiques pour les critères de flag Monitor et les descriptions d’attributs Scorecard. Les Monitors évaluent actuellement uniquement les conversations Fin AI Agent.

Note : Monitors est disponible dans le cadre du module complémentaire Pro.

Critères de flag Monitor vs. descriptions d’attributs Scorecard

Ces deux types de critères fonctionnent différemment, ils doivent donc être rédigés différemment.

	Critères de flag Monitor	Descriptions des critères Scorecard
Objectif	Décide quelles conversations sont examinées	Définit comment chaque conversation est évaluée
Logique	Oui/non - chaque monitor fonctionne indépendamment	Compétitif - l’IA sélectionne la meilleure correspondance unique
Défi clé	Réduire les faux positifs et les faux négatifs	Éliminer le chevauchement entre les valeurs des critères

Meilleures pratiques pour rédiger des critères de flag Monitor

Les Monitors fonctionnent comme des vérifications indépendantes oui/non. Plusieurs Monitors peuvent signaler la même conversation - et c’est acceptable. Pour cette raison, la précision compte plus que la distinction.

1. Décrivez un comportement observable, pas une intention déduite

Concentrez-vous sur ce qui apparaît dans la conversation.
Évitez : Le client est frustré
Préférez : Le client utilise des phrases telles que Ceci est inacceptable, Je suis extrêmement déçu, ou C’est ridicule.

L’IA fonctionne mieux lorsqu’elle évalue des signaux explicites plutôt que des interprétations émotionnelles.

2. Incluez des exemples concrets

Les exemples réduisent considérablement l’ambiguïté.
Utilisez des modèles de formulation explicites : par ex., annuler mon abonnement, fermer mon compte, supprimer mes données
Les exemples ancrent le modèle dans un langage réel.

3. Ajoutez des exclusions explicites

Réduire les faux positifs est crucial pour les Monitors.

Exemple : Le client utilise des grossièretés. EXCLURE : un langage léger comme damn ou crap. Si quelque chose ne doit pas déclencher le monitor, dites-le clairement.

4. Utilisez des seuils quantifiables

Évitez les formulations vagues.
Mauvais : Fin donne une réponse courte.
Mieux : La réponse de Fin contient moins de 50 mots.
Des seuils spécifiques améliorent la cohérence.

5. Divisez la logique en plusieurs étapes numérotées

Si votre Monitor dépend d’une séquence ou d’un modèle, structurez-le clairement :

Le client exprime sa frustration.
Fin répond sans reconnaître l’émotion.
Le client répète sa plainte.

Cela rend la logique déterministe et plus facile à évaluer.

6. Gardez-le simple

Si la règle est simple, ne la compliquez pas.
Exemple : Fin suggère les prochaines étapes (par ex., Veuillez essayer de vider votre cache, Déconnectez-vous puis reconnectez-vous, Cliquez sur ce lien).
La clarté prime sur la complexité.

7. Utilisez « explicitement » pour exiger un langage direct du client

Si votre Monitor ne doit se déclencher que lorsqu’un client exprime directement quelque chose — et pas seulement l’implique — incluez le mot « explicitement » dans vos critères. Sans cela, l’IA peut déduire l’intention du contexte et faire correspondre des conversations où le comportement était seulement suggéré, pas exprimé.

Sans « explicitement » : Le client demande un rappel — pourrait correspondre à « Pouvez-vous me mettre en contact avec l’équipe de sécurité ? » puisque l’IA peut déduire que cela implique une demande de contact direct.
Avec « explicitement » : Le client demande explicitement un rappel — ne correspond que si le client demande directement, par ex., « Puis-je avoir un appel ? » ou « Veuillez m’appeler. »

Astuce : Utilisez l’outil Test Monitor pour valider vos critères avec de vraies conversations avant de l’activer. Mettez à jour les critères de flag et relancez le test jusqu’à ce que les résultats reflètent précisément ce que vous souhaitez que le Monitor capture.

Meilleures pratiques pour rédiger des descriptions de critères Scorecard

Commencez par le principe fondamental : les critères sont en compétition. L’IA examine la liste complète et sélectionne la meilleure correspondance unique pour chaque critère. Votre rôle est de rendre ce choix évident.

1. Utilisez des noms clairs et concis

Gardez les noms courts et spécifiques. Quelqu’un qui lit la liste doit immédiatement comprendre l’objectif sans ouvrir la description.
Mauvais : Problèmes de communication client
Mieux : Ton - Impoli ou méprisant

2. Rédigez des descriptions complètes

Les descriptions portent la majeure partie du signal de classification.

Décrivez explicitement tous les types de conversations concernés.
Incluez des mots-clés, des formulations courantes et des exemples.
Pensez aux cas limites et incluez-les.
Clarifiez à quoi ressemblent les bonnes et mauvaises instances.

La description doit faciliter la reconnaissance par l’IA des formulations du monde réel, pas seulement des définitions abstraites.

3. Rendez les critères clairement distincts

Les critères d’un même scorecard ne doivent pas être en compétition conceptuelle.

Évitez le chevauchement sémantique.
Assurez-vous que chaque attribut a une limite claire.
Si deux attributs peuvent s’appliquer raisonnablement pour la même raison, affinez-en un.

Il est acceptable qu’une seule conversation corresponde à plusieurs critères dans le scorecard. Ce qui importe, c’est que dans chaque ensemble de critères, les valeurs soient clairement séparables.

4. Évaluez la qualité systématiquement

Lors de la révision de votre taxonomie, évaluez chaque critère selon :

Clarté / concision
Exhaustivité de la description
Distinction des critères
Chevauchement des critères (le cas échéant)
Score final + commentaires

Cette revue structurée vous oblige à affiner les définitions et réduire l’ambiguïté - ce qui améliore directement la performance de classification.

FAQ

Quelle longueur pour mes critères de flag ?

Il n’y a pas de longueur fixe - la bonne longueur est celle qui décrit précisément le comportement. Un Monitor simple peut nécessiter seulement deux ou trois phrases. Un Monitor complexe (comme pour détecter des modèles d’échec en plusieurs étapes) peut nécessiter une description structurée et numérotée. Privilégiez plus de détails plutôt que moins.

Puis-je utiliser les mêmes critères Scorecard sur plusieurs scorecards ?

Oui - les titres et descriptions des critères sont réutilisables. Une fois que vous avez créé un critère, vous pouvez l’ajouter à plusieurs scorecards. Notez que les notes précédentes ne peuvent pas être réutilisées et doivent être définies à zéro dans chaque scorecard.

Quelle est la différence entre les critères de flag Monitor et la description des critères Scorecard ?

Les critères de flag Monitor déterminent si une conversation est sélectionnée dans un Monitor - c’est un filtre oui/non. Les descriptions des critères Scorecard définissent comment chaque conversation est notée une fois dans le Monitor. Pensez au Monitor comme au filet et au scorecard comme à la règle.

Comment rédiger des critères efficaces pour Monitor & Scorecard