Passer au contenu principal

Comment rédiger des critères efficaces pour Monitor & Scorecard

Meilleures pratiques pour définir des critères clairs et exploitables afin d'évaluer la performance des coéquipiers avec des monitors et scorecards.

Écrit par Dawn

Rédiger des critères efficaces est ce qui distingue un Monitor qui met en évidence de vrais problèmes d'un autre qui inonde votre file d'attente de bruit. Ce guide couvre les meilleures pratiques pour les critères de drapeau Monitor et les descriptions d'attributs Scorecard. Les Monitors évaluent actuellement uniquement les conversations Fin AI Agent.

Note : Monitors est disponible dans le cadre du module complémentaire Pro.


Critères de drapeau Monitor vs descriptions d'attributs Scorecard

Ces deux types de critères fonctionnent différemment, ils doivent donc être rédigés différemment.

Critères de drapeau Monitor

Descriptions des critères Scorecard

Objectif

Décide quelles conversations sont examinées

Définit comment chaque conversation est évaluée

Logique

Oui/non - chaque monitor fonctionne indépendamment

Compétitif - l'IA sélectionne la meilleure correspondance unique

Défi clé

Réduire les faux positifs et les faux négatifs

Éliminer le chevauchement entre les valeurs des critères


Meilleures pratiques pour rédiger des critères de drapeau Monitor

Les Monitors fonctionnent comme des vérifications indépendantes oui/non. Plusieurs Monitors peuvent signaler la même conversation - et c'est acceptable. Pour cette raison, la précision compte plus que la distinction.

1. Décrire un comportement observable, pas une intention déduite

  • Concentrez-vous sur ce qui apparaît dans la conversation.

  • Évitez : Le client est frustré

  • Préférez : Le client utilise des expressions telles que Ceci est inacceptable, Je suis extrêmement déçu, ou C'est ridicule.

L'IA fonctionne mieux lorsqu'elle évalue des signaux explicites plutôt que des interprétations émotionnelles.

2. Inclure des exemples concrets

  • Les exemples réduisent considérablement l'ambiguïté.

  • Utilisez des modèles de formulation explicites : par ex., annuler mon abonnement, fermer mon compte, supprimer mes données

  • Les exemples ancrent le modèle dans un langage réel.

3. Ajouter des exclusions explicites

Réduire les faux positifs est crucial pour les Monitors.

Exemple : Le client utilise des grossièretés. EXCLURE : un langage léger comme damn ou crap. Si quelque chose ne doit pas déclencher le monitor, dites-le clairement.

4. Utiliser des seuils quantifiables

  • Évitez les formulations vagues.

  • Mauvais : Fin donne une réponse courte.

  • Mieux : La réponse de Fin contient moins de 50 mots.

  • Des seuils spécifiques améliorent la cohérence.

5. Diviser la logique en plusieurs étapes numérotées

Si votre Monitor dépend d'une séquence ou d'un modèle, structurez-le clairement :

  1. Le client exprime sa frustration.

  2. Fin répond sans reconnaître l'émotion.

  3. Le client répète sa plainte.

Cela rend la logique déterministe et plus facile à évaluer.

6. Restez simple

  • Si la règle est simple, ne la compliquez pas.

  • Exemple : Fin suggère les prochaines étapes (par ex., Veuillez essayer de vider votre cache, Déconnectez-vous puis reconnectez-vous, Cliquez sur ce lien).

  • La clarté prime sur la complexité.

7. Utilisez « explicitement » pour exiger un langage direct du client

Si votre Monitor ne doit se déclencher que lorsqu'un client exprime directement quelque chose — et pas seulement l'implique — incluez le mot « explicitement » dans vos critères. Sans cela, l'IA peut déduire l'intention du contexte et faire correspondre des conversations où le comportement n'était que suggéré, pas exprimé.

  • Sans « explicitement » : Le client demande un rappel — cela pourrait correspondre à « Pouvez-vous me mettre en contact avec l'équipe de sécurité ? » puisque l'IA peut déduire que cela implique une demande de contact direct.

  • Avec « explicitement » : Le client demande explicitement un rappel — ne correspond que si le client demande directement, par ex., « Puis-je avoir un appel ? » ou « Veuillez m'appeler. »

Conseil : Utilisez l'outil Test Monitor pour valider vos critères avec de vraies conversations avant de l'activer. Mettez à jour les critères de drapeau et relancez le test jusqu'à ce que les résultats reflètent précisément ce que vous souhaitez que le Monitor capture.


Meilleures pratiques pour rédiger des descriptions de critères Scorecard

Commencez par le principe de base : les critères sont en compétition. L'IA examine la liste complète et sélectionne la meilleure correspondance unique pour chaque critère. Votre rôle est de rendre ce choix évident.

1. Utilisez des noms clairs et concis

  • Gardez les noms courts et spécifiques. Quelqu'un qui lit la liste doit comprendre immédiatement l'objectif sans ouvrir la description.

  • Mauvais : Problèmes de communication client

  • Mieux : Ton - Impoli ou méprisant

2. Rédigez des descriptions complètes

Les descriptions portent la majeure partie du signal de classification.

  • Décrivez explicitement tous les types de conversations concernés.

  • Incluez des mots-clés, des formulations courantes et des exemples.

  • Pensez aux cas limites et incluez-les.

  • Clarifiez à quoi ressemblent les bonnes et mauvaises instances.

La description doit faciliter la reconnaissance par l'IA des formulations réelles, pas seulement des définitions abstraites.

3. Rendez les critères clairement distincts

Les critères d'un même scorecard ne doivent pas être en compétition conceptuelle.

  • Évitez le chevauchement sémantique.

  • Assurez-vous que chaque attribut a une limite claire.

  • Si deux attributs peuvent s'appliquer raisonnablement pour la même raison, affinez-en un.

Il est acceptable qu'une seule conversation corresponde à plusieurs critères dans le scorecard. Ce qui importe, c'est que dans chaque ensemble de critères, les valeurs soient clairement séparables.

4. Évaluez la qualité systématiquement

Lors de la révision de votre taxonomie, évaluez chaque critère selon :

  • Clarté / concision

  • Exhaustivité de la description

  • Distinction des critères

  • Chevauchement des critères (le cas échéant)

  • Score final + commentaires

Cette revue structurée vous oblige à affiner les définitions et réduire l'ambiguïté, ce qui améliore directement la performance de classification.


FAQ

Quelle doit être la longueur de mes critères de drapeau ?

Il n'y a pas de longueur fixe - la bonne longueur est celle qui décrit précisément le comportement. Un Monitor simple peut nécessiter seulement deux ou trois phrases. Un Monitor complexe (comme pour détecter des schémas d'échec en plusieurs étapes) peut nécessiter une description structurée et numérotée. Privilégiez plus de détails plutôt que moins.

Puis-je utiliser les mêmes critères Scorecard sur plusieurs scorecards ?

Oui - les titres et descriptions des critères sont réutilisables. Une fois que vous avez créé un critère, vous pouvez l'ajouter à plusieurs scorecards. Notez que les notes précédentes ne peuvent pas être réutilisées et doivent être définies à nouveau dans chaque scorecard.

Quelle est la différence entre les critères de drapeau monitor et la description des critères scorecard ?

Les critères de drapeau monitor déterminent si une conversation est incluse dans un Monitor - c'est un filtre oui/non. Les descriptions des critères scorecard définissent comment chaque conversation est notée une fois dans le Monitor. Pensez au Monitor comme au filet et au scorecard comme à la règle.

Avez-vous trouvé la réponse à votre question ?