Rédiger des critères efficaces est ce qui distingue un Monitor qui met en évidence de vrais problèmes d'un autre qui inonde votre file d'attente de bruit. Ce guide couvre les meilleures pratiques pour les critères de drapeau Monitor et les descriptions d'attributs Scorecard. Les Monitors évaluent actuellement uniquement les conversations Fin AI Agent.
Note : Monitors est disponible dans le cadre du module complémentaire Pro.
Critères de drapeau Monitor vs descriptions d'attributs Scorecard
Ces deux types de critères fonctionnent différemment, ils doivent donc être rédigés différemment.
| Critères de drapeau Monitor | Descriptions des critères Scorecard |
Objectif | Décide quelles conversations sont examinées | Définit comment chaque conversation est évaluée |
Logique | Oui/non - chaque monitor fonctionne indépendamment | Compétitif - l'IA sélectionne la meilleure correspondance unique |
Défi clé | Réduire les faux positifs et les faux négatifs | Éliminer le chevauchement entre les valeurs des critères |
Meilleures pratiques pour rédiger des critères de drapeau Monitor
Les Monitors fonctionnent comme des vérifications indépendantes oui/non. Plusieurs Monitors peuvent signaler la même conversation - et c'est acceptable. Pour cette raison, la précision compte plus que la distinction.
1. Décrire un comportement observable, pas une intention déduite
Concentrez-vous sur ce qui apparaît dans la conversation.
Évitez : Le client est frustré
Préférez : Le client utilise des expressions telles que Ceci est inacceptable, Je suis extrêmement déçu, ou C'est ridicule.
L'IA fonctionne mieux lorsqu'elle évalue des signaux explicites plutôt que des interprétations émotionnelles.
2. Inclure des exemples concrets
Les exemples réduisent considérablement l'ambiguïté.
Utilisez des modèles de formulation explicites : par ex., annuler mon abonnement, fermer mon compte, supprimer mes données
Les exemples ancrent le modèle dans un langage réel.
3. Ajouter des exclusions explicites
Réduire les faux positifs est crucial pour les Monitors.
Exemple : Le client utilise des grossièretés. EXCLURE : un langage léger comme damn ou crap. Si quelque chose ne doit pas déclencher le monitor, dites-le clairement.
4. Utiliser des seuils quantifiables
Évitez les formulations vagues.
Mauvais : Fin donne une réponse courte.
Mieux : La réponse de Fin contient moins de 50 mots.
Des seuils spécifiques améliorent la cohérence.
5. Diviser la logique en plusieurs étapes numérotées
Si votre Monitor dépend d'une séquence ou d'un modèle, structurez-le clairement :
Le client exprime sa frustration.
Fin répond sans reconnaître l'émotion.
Le client répète sa plainte.
Cela rend la logique déterministe et plus facile à évaluer.
6. Restez simple
Si la règle est simple, ne la compliquez pas.
Exemple : Fin suggère les prochaines étapes (par ex., Veuillez essayer de vider votre cache, Déconnectez-vous puis reconnectez-vous, Cliquez sur ce lien).
La clarté prime sur la complexité.
7. Utilisez « explicitement » pour exiger un langage direct du client
Si votre Monitor ne doit se déclencher que lorsqu'un client exprime directement quelque chose — et pas seulement l'implique — incluez le mot « explicitement » dans vos critères. Sans cela, l'IA peut déduire l'intention du contexte et faire correspondre des conversations où le comportement n'était que suggéré, pas exprimé.
Sans « explicitement » : Le client demande un rappel — cela pourrait correspondre à « Pouvez-vous me mettre en contact avec l'équipe de sécurité ? » puisque l'IA peut déduire que cela implique une demande de contact direct.
Avec « explicitement » : Le client demande explicitement un rappel — ne correspond que si le client demande directement, par ex., « Puis-je avoir un appel ? » ou « Veuillez m'appeler. »
Conseil : Utilisez l'outil Test Monitor pour valider vos critères avec de vraies conversations avant de l'activer. Mettez à jour les critères de drapeau et relancez le test jusqu'à ce que les résultats reflètent précisément ce que vous souhaitez que le Monitor capture.
Meilleures pratiques pour rédiger des descriptions de critères Scorecard
Commencez par le principe de base : les critères sont en compétition. L'IA examine la liste complète et sélectionne la meilleure correspondance unique pour chaque critère. Votre rôle est de rendre ce choix évident.
1. Utilisez des noms clairs et concis
Gardez les noms courts et spécifiques. Quelqu'un qui lit la liste doit comprendre immédiatement l'objectif sans ouvrir la description.
Mauvais : Problèmes de communication client
Mieux : Ton - Impoli ou méprisant
2. Rédigez des descriptions complètes
Les descriptions portent la majeure partie du signal de classification.
Décrivez explicitement tous les types de conversations concernés.
Incluez des mots-clés, des formulations courantes et des exemples.
Pensez aux cas limites et incluez-les.
Clarifiez à quoi ressemblent les bonnes et mauvaises instances.
La description doit faciliter la reconnaissance par l'IA des formulations réelles, pas seulement des définitions abstraites.
3. Rendez les critères clairement distincts
Les critères d'un même scorecard ne doivent pas être en compétition conceptuelle.
Évitez le chevauchement sémantique.
Assurez-vous que chaque attribut a une limite claire.
Si deux attributs peuvent s'appliquer raisonnablement pour la même raison, affinez-en un.
Il est acceptable qu'une seule conversation corresponde à plusieurs critères dans le scorecard. Ce qui importe, c'est que dans chaque ensemble de critères, les valeurs soient clairement séparables.
4. Évaluez la qualité systématiquement
Lors de la révision de votre taxonomie, évaluez chaque critère selon :
Clarté / concision
Exhaustivité de la description
Distinction des critères
Chevauchement des critères (le cas échéant)
Score final + commentaires
Cette revue structurée vous oblige à affiner les définitions et réduire l'ambiguïté, ce qui améliore directement la performance de classification.
FAQ
Quelle doit être la longueur de mes critères de drapeau ?
Quelle doit être la longueur de mes critères de drapeau ?
Il n'y a pas de longueur fixe - la bonne longueur est celle qui décrit précisément le comportement. Un Monitor simple peut nécessiter seulement deux ou trois phrases. Un Monitor complexe (comme pour détecter des schémas d'échec en plusieurs étapes) peut nécessiter une description structurée et numérotée. Privilégiez plus de détails plutôt que moins.
Puis-je utiliser les mêmes critères Scorecard sur plusieurs scorecards ?
Puis-je utiliser les mêmes critères Scorecard sur plusieurs scorecards ?
Oui - les titres et descriptions des critères sont réutilisables. Une fois que vous avez créé un critère, vous pouvez l'ajouter à plusieurs scorecards. Notez que les notes précédentes ne peuvent pas être réutilisées et doivent être définies à nouveau dans chaque scorecard.
Quelle est la différence entre les critères de drapeau monitor et la description des critères scorecard ?
Quelle est la différence entre les critères de drapeau monitor et la description des critères scorecard ?
Les critères de drapeau monitor déterminent si une conversation est incluse dans un Monitor - c'est un filtre oui/non. Les descriptions des critères scorecard définissent comment chaque conversation est notée une fois dans le Monitor. Pensez au Monitor comme au filet et au scorecard comme à la règle.
