Redactar criterios efectivos es lo que diferencia un Monitor que detecta problemas reales de uno que inunda tu cola con ruido. Esta guía cubre las mejores prácticas para los criterios de bandera del Monitor y las descripciones de atributos del Scorecard. Los Monitores actualmente evalúan solo conversaciones de Fin AI Agent.
Nota: Monitors está disponible como parte del complemento Pro.
Criterios de bandera del Monitor vs. descripciones de atributos del scorecard
Estos dos tipos de criterios funcionan de manera diferente, por lo que deben redactarse de forma distinta.
| Criterios de bandera del Monitor | Descripciones de criterios del scorecard |
Propósito | Decide qué conversaciones se revisan | Define cómo se evalúa cada conversación |
Lógica | Sí/no - cada monitor funciona de forma independiente | Competitiva - la IA selecciona la mejor coincidencia única |
Desafío clave | Reducir falsos positivos y falsos negativos | Eliminar superposición entre valores de criterios |
Mejores prácticas para redactar criterios de bandera del Monitor
Los Monitores funcionan como verificaciones independientes de sí/no. Múltiples Monitores pueden marcar la misma conversación, y eso está bien. Por eso, la precisión importa más que la distinción.
1. Describe comportamiento observable, no intención inferida
Concéntrate en lo que aparece en la conversación.
Evita: El cliente está frustrado
Prefiere: El cliente usa frases como Esto es inaceptable, Estoy extremadamente decepcionado o Esto es ridículo.
La IA funciona mejor al evaluar señales explícitas en lugar de interpretaciones emocionales.
2. Incluye ejemplos concretos
Los ejemplos reducen drásticamente la ambigüedad.
Usa patrones de frases explícitas: por ejemplo, cancelar mi suscripción, cerrar mi cuenta, eliminar mis datos
Los ejemplos anclan el modelo al lenguaje del mundo real.
3. Añade exclusiones explícitas
Reducir falsos positivos es crítico para los Monitores.
Ejemplo: El cliente usa lenguaje soez. EXCLUIR: lenguaje leve como maldición o tonterías. Si algo no debe activar el monitor, dilo claramente.
4. Usa umbrales cuantificables
Evita redacción vaga.
Malo: Fin da una respuesta corta.
Mejor: La respuesta de Fin tiene menos de 50 palabras.
Umbrales específicos mejoran la consistencia.
5. Divide la lógica de varios pasos en criterios numerados
Si tu Monitor depende de secuencia o patrón, estructúralo claramente:
El cliente expresa frustración.
Fin responde sin reconocer la emoción.
El cliente repite la queja.
Esto hace que la lógica sea determinista y más fácil de evaluar.
6. Mantenlo simple
Si la regla es sencilla, no la compliques.
Ejemplo: Fin sugiere los siguientes pasos (por ejemplo, Por favor intenta limpiar tu caché, Cierra sesión y vuelve a entrar, Haz clic en este enlace).
La claridad vence a la complejidad.
7. Usa 'explícitamente' para requerir lenguaje directo del cliente
Si tu Monitor solo debe activarse cuando un cliente dice algo directamente — no solo lo insinúa — incluye la palabra "explícitamente" en tus criterios. Sin ella, la IA puede inferir intención por contexto y coincidir con conversaciones donde el comportamiento solo fue sugerido, no declarado.
Sin "explícitamente": El cliente solicita una devolución de llamada — podría coincidir con "¿Puedes conectarme con el equipo de seguridad?" ya que la IA puede inferir que esto implica una solicitud de contacto directo.
Con "explícitamente": El cliente solicita explícitamente una devolución de llamada — solo coincide si el cliente pregunta directamente, por ejemplo, "¿Puedo recibir una llamada?" o "Por favor, llámame."
Consejo: Usa la herramienta Test Monitor para validar tus criterios con conversaciones reales antes de activarlo. Actualiza los criterios de bandera y vuelve a ejecutar la prueba hasta que los resultados reflejen con precisión lo que quieres que el Monitor capture.
Mejores prácticas para redactar descripciones de criterios del scorecard
Comienza con el principio básico: los criterios compiten. La IA revisa la lista completa y selecciona la mejor coincidencia única para cada criterio. Tu trabajo es hacer esa elección obvia.
1. Usa nombres claros y concisos
Mantén los nombres cortos y específicos. Quien lea la lista debe entender el propósito sin abrir la descripción.
Malo: Problemas de comunicación con el cliente
Mejor: Tono - Grosero o Despectivo
2. Escribe descripciones completas
Las descripciones llevan la mayor parte de la señal de clasificación.
Describe explícitamente todos los tipos de conversación que pertenecen.
Incluye palabras clave, frases comunes y ejemplos.
Piensa en casos límite e inclúyelos.
Aclara cómo son los casos buenos y malos.
La descripción debe facilitar que la IA reconozca frases del mundo real, no solo definiciones abstractas.
3. Haz que los criterios sean claramente distintos
Los criterios dentro del mismo scorecard no deben competir conceptualmente.
Evita superposiciones semánticas.
Asegura que cada atributo tenga un límite claro.
Si dos atributos podrían aplicarse razonablemente por la misma razón, refina uno de ellos.
Está bien si una sola conversación encaja en varios criterios del scorecard. Lo importante es que dentro de cada conjunto de criterios, los valores sean claramente separables.
4. Evalúa la calidad sistemáticamente
Al revisar tu taxonomía, evalúa cada criterio en:
Claridad / concisión
Completitud de la descripción
Distinción de criterios
Criterios superpuestos (si los hay)
Puntuación final + comentarios
Esta revisión estructurada te obliga a ajustar definiciones y reducir ambigüedad, lo que mejora directamente el rendimiento de la clasificación.
Preguntas frecuentes
¿Cuánto deben durar mis criterios de bandera?
¿Cuánto deben durar mis criterios de bandera?
No hay una longitud fija: la longitud correcta es la que se necesita para describir el comportamiento con precisión. Un Monitor simple puede necesitar solo dos o tres oraciones. Uno complejo (como detectar patrones de fallos en varios pasos) puede necesitar una descripción estructurada y numerada. Es mejor pecar de detallista que de escaso.
¿Puedo usar los mismos criterios del scorecard en varios scorecards?
¿Puedo usar los mismos criterios del scorecard en varios scorecards?
Sí, los títulos y descripciones de criterios son reutilizables. Una vez que creas criterios, puedes agregarlos a varios scorecards. Ten en cuenta que las puntuaciones anteriores no se pueden reutilizar y deben establecerse desde cero en cada scorecard.
¿Cuál es la diferencia entre los criterios de bandera del monitor y la descripción de criterios del scorecard?
¿Cuál es la diferencia entre los criterios de bandera del monitor y la descripción de criterios del scorecard?
Los criterios de bandera del monitor determinan si una conversación se incluye en un Monitor: es un filtro sí/no. Las descripciones de criterios del scorecard definen cómo se puntúa cada conversación una vez dentro del Monitor. Piensa en el Monitor como la red y el scorecard como la regla.
