Ir al contenido principal

Comenzando con la QA de compañeros humanos en Monitors

Aprende a configurar Monitors para la QA de compañeros humanos, incluyendo la creación de scorecards personalizados, configuración de Monitors y envío de revisiones.

Escrito por Alissa Tyrangiel

Monitors para QA de compañeros humanos te permiten evaluar y mejorar la calidad de las conversaciones de tus compañeros a gran escala. Defines qué conversaciones se revisan, adjuntas un scorecard personalizado para calificarlas y asignas revisores, todo automáticamente.

Un Monitor selecciona qué conversaciones revisar. Un Scorecard define cómo se evalúa cada una: los criterios específicos que te importan, como precisión, tono o cumplimiento de políticas. Juntos, ofrecen una forma consistente y escalable de medir y mejorar la calidad de las conversaciones en tu equipo.

Configurar la QA de agentes humanos requiere dos pasos:

  1. Crea un Scorecard que defina tus criterios de calidad.

  2. Configura un Monitor para seleccionar qué conversaciones se revisan, quién las revisa y cómo se envían las revisiones a tu equipo.

Nota: Este artículo cubre Monitors para QA de agentes humanos. Para Monitors que evalúan conversaciones de Fin AI Agent, consulta Monitors and Custom Scorecards. Monitors para QA de agentes humanos está disponible como parte del Pro add-on.


Cómo crear un Scorecard

Ve a Fin AI Agent > Analyze > Monitors y haz clic en Scorecards.

Crea el tuyo haciendo clic en + New scorecard:

Comienza seleccionando quién será evaluado. Haz clic en Human teammates assigned y elige compañeros en equipos específicos o compañeros individuales.

Luego, añade los criterios de tu scorecard. Primero, haz clic en + Criteria > Create new.

Al crear un nuevo criterio, sigue los siguientes pasos:

1. Nombra el criterio

Dale al criterio un nombre corto y claro (por ejemplo, Sentiment o Answer accuracy). Este nombre aparece en los informes y se usará como referencia.

2. Describe lo que se evalúa

Agrega una descripción clara que explique qué verifica el criterio y cómo debe calificarse. La descripción es el prompt que la IA usa para calificar este criterio, y mientras más precisa sea, más exactamente la IA evaluará las conversaciones. También ayuda a los revisores humanos a aplicar el mismo criterio de forma consistente.

Consejo: Para ayuda escribiendo descripciones efectivas, consulta cómo escribir criterios efectivos para Monitors y Scorecards.

3. Elige cómo se califica el criterio

Decide si el criterio debe ser calificado automáticamente con IA o manualmente por revisores humanos. Puedes combinar criterios calificados por IA y por humanos en el mismo scorecard.

Nota: Los títulos y descripciones de criterios de scorecard son reutilizables. Una vez creado un criterio, puedes añadirlo a múltiples scorecards. Las calificaciones previas no se pueden reutilizar y deben establecerse desde cero en cada scorecard.

4. Define las opciones de calificación

Agrega los posibles valores de calificación que un revisor o la IA pueden seleccionar (por ejemplo: Bueno, Regular, Malo). Cada criterio debe tener al menos dos opciones de calificación. Para cada opción de calificación, harás lo siguiente:

  • Nombra la calificación (corta y clara)

  • Describe cuándo debe seleccionarse

  • Asigna una puntuación (por ejemplo, 100%, 50%, 0%) o márcala como No calificado

La puntuación que asignes determina cómo esa calificación contribuye a la puntuación general de la revisión.

4b. Define razones de calificación (opcional)

Para cada opción de calificación, puedes definir una lista de razones de calificación que son etiquetas predefinidas que explican por qué se dio una puntuación particular. Las razones de calificación ayudan a los revisores y a la IA a categorizar las puntuaciones de forma consistente, facilitando la identificación de patrones en las conversaciones.

Cuando la IA califica un criterio, selecciona automáticamente la razón predefinida más relevante cuando aplica una. Si ninguna razón predefinida encaja, la IA genera una explicación clara para que cada puntuación tenga un contexto significativo.

6. Activa la Auto-revisión (opcional)

Puedes automatizar todo el proceso de QA para un scorecard activando Auto-review scorecard.

Cuando está activado:

  • Si la IA califica todos los criterios del scorecard, se omite completamente el paso de revisión manual.

  • Los compañeros aún pueden anular manualmente cualquier puntuación de IA si detectan una discrepancia.

Consejo: La Auto-revisión funciona mejor en scorecards donde todos los criterios son calificados por IA. Si algún criterio requiere un humano, esas conversaciones seguirán apareciendo en la cola Unreviewed.


Configura tu scorecard

Después de añadir criterios al scorecard, configura cómo afectan el resultado general de la revisión.

Marcar un criterio de scorecard como crítico

Puedes marcar criterios como Críticos. Si un criterio crítico recibe una calificación reprobatoria, toda la revisión se marca como fallida, sin importar cómo hayan calificado los otros criterios:

  • La revisión aparece como Fail en las vistas del scorecard, incluso si la puntuación ponderada habría alcanzado el umbral de aprobación

  • Esto anula el umbral de aprobación y todos los pesos

  • Las calificaciones No calificado excluyen el criterio de la puntuación general y no provocan fallo

Los criterios críticos son útiles para estándares no negociables como requisitos de cumplimiento, seguridad o adherencia a políticas, y manejo de escalaciones.

Ponderación de criterios del scorecard

A cada criterio se le puede asignar un peso para definir su importancia relativa.

  • El peso debe ser un número entero entre 0 y 100

  • Los pesos más altos aumentan el impacto de ese criterio en la puntuación general de la revisión

Los pesos solo se aplican a criterios incluidos en la puntuación de la revisión. Usa pesos para reflejar lo que más importa, por ejemplo, un peso mayor en Precisión que en Eficiencia si la corrección es más importante que la velocidad.

Nota: Los pesos son relativos entre sí, no fijos a una escala de 100. El total puede sumar cualquier número; lo importante es la proporción que aporta cada criterio. Un criterio con un peso de 25 sobre un total de 50 contribuye igual que uno ponderado en 50 sobre 100.

Añadiendo un umbral de aprobación

Puedes definir un umbral de aprobación, la puntuación mínima total requerida para que una revisión se considere aprobada. Por ejemplo, si el umbral de aprobación es 80%, cualquier revisión con puntuación inferior a 80% se marca como fallida.

Esto se evalúa después de la puntuación ponderada, siempre que ningún criterio crítico haya fallado ya la revisión.


Cómo funciona la puntuación total de la revisión

  1. Cada criterio se califica usando sus opciones de valoración definidas.

  2. Las valoraciones contribuyen con su puntuación asignada (o se excluyen si están marcadas como No puntuado).

  3. Los criterios incluidos se combinan usando sus pesos asignados.

  4. Si algún criterio crítico recibe una valoración de fallo, la puntuación total de la revisión se convierte en 0%.

  5. La puntuación final se compara con el umbral de aprobación para determinar si la revisión aprueba o falla.

Aquí hay un ejemplo de cómo tres criterios se combinan en una puntuación final:

Criterio

Valoración seleccionada

Puntuación de valoración

Peso

Precisión

Bueno

100%

60

Tono

Aceptable

50%

30

Eficiencia

Bueno

100%

10

Puntuación total = (100x60 + 50x30 + 100x10) / (60+30+10) = 85%


Cómo crear un Monitor

Los Monitors definen qué conversaciones se revisan. Configuras los criterios, eliges al revisor y adjuntas una tarjeta de puntuación para evaluar la calidad. Una vez activo, los Monitors funcionan automáticamente y muestran las conversaciones coincidentes para que tu equipo actúe.

Necesitas al menos una tarjeta de puntuación antes de poder aprovechar al máximo un monitor que evalúa conversaciones humanas.

Para acceder a Monitors, ve a Fin AI Agent > Analyze > Monitors. Haz clic en + Monitor para comenzar. También puedes elegir una plantilla para Monitors Fin, Monitors de compañeros o Monitors generales.

Paso 1: Elige cómo se evalúan las conversaciones

Ponle un nombre a tu Monitor y luego elige cómo se evalúan las conversaciones. Aquí puedes vincular la tarjeta de puntuación que creaste para evaluar agentes humanos:

Asocia una tarjeta de puntuación con el Monitor para evaluar automáticamente cada conversación coincidente según los criterios definidos. Una vez seleccionada, la tarjeta se ejecuta tan pronto como una conversación se añade al Monitor, y los resultados aparecen en el Monitor para informes y revisión.

Consejo: Adjuntar una tarjeta de puntuación es lo que hace que un Monitor sea realmente útil; sin ella, las conversaciones se marcan pero no se puntúan.

Aquí también puedes seleccionar a tus revisores. Todas las conversaciones que coincidan con el Monitor se asignan automáticamente a los revisores seleccionados, por lo que las revisiones se enrutan de forma consistente sin coordinación manual.

Nota: Si la tarjeta de puntuación adjunta tiene habilitada la Auto-revisión, el estado del revisor mostrará como Auto-revisado. Estas conversaciones evitarán la cola manual de No revisadas a menos que la IA detecte un fallo o no pueda puntuar los criterios con confianza.

Paso 2: Elige conversaciones

Tu Monitor puede dirigirse a:

  • Una muestra aleatoria, por ejemplo, una muestra semanal de conversaciones de servicio al cliente para QA base

  • Un conjunto específico basado en señales o riesgos específicos, por ejemplo, todas las conversaciones donde un cliente muestra signos de vulnerabilidad financiera

Puedes filtrar las conversaciones usando:

  • Filtros precisos — Estado de resolución, Tema, Puntuación CX y más

  • Criterios de bandera — entrada en lenguaje natural que describe los tipos de conversaciones que quieres marcar. Para ayuda sobre cómo escribir criterios efectivos, consulta cómo escribir criterios efectivos para Monitor y Scorecard.

Nota: Una sola conversación puede aparecer en múltiples Monitors. Cada Monitor funciona de forma independiente, así que si una conversación coincide con los criterios de más de un Monitor, se marcará en cada uno. Al hacer clic en una conversación se muestra exactamente por qué fue marcada por ese Monitor.

Paso 3: Elige un modo de monitoreo

Selecciona cómo funciona el Monitor:

  • Continuo: funciona de forma continua, coincidiendo con nuevas conversaciones a medida que se cierran y agregándolas automáticamente

  • Único: solo relleno, coincidiendo con conversaciones de datos históricos. Las nuevas conversaciones que se cierren después de la configuración no se incluyen

  • Programado: se ejecuta con una cadencia diaria o semanal recurrente, permitiendo a los compañeros revisar conversaciones en un horario regular

Paso 4: Seleccione la fecha de inicio

Elija cuándo el Monitor debe comenzar a evaluar conversaciones. Esto le permite realizar QA en conversaciones históricas desde un punto específico en el tiempo, mientras que continuamente se muestran nuevas conversaciones coincidentes desde esa fecha en adelante.

Nota: Al crear un Monitor por primera vez, puede rellenar hasta 90 días de conversaciones históricas. A partir de ese momento, el Monitor continúa capturando nuevas conversaciones coincidentes automáticamente.

Paso 5: Elija cuándo se agregan las conversaciones

Una conversación debe estar cerrada antes de que pueda ser evaluada por un monitor QA humano.


Enviando revisiones

Las conversaciones pueden ser revisadas y enviadas desde varias vistas.

En todas las vistas:

  • La lista de conversaciones muestra la puntuación general de la revisión (porcentaje o Fallo) junto con las calificaciones individuales de los criterios como columnas. Esto facilita escanear el rendimiento a través de las conversaciones y detectar fallos o puntuaciones bajas.

  • Cuando abre una conversación y va a la pestaña Puntuación, puede ver la tarjeta de puntuación asignada, el estado de la revisión, la puntuación general y la calificación seleccionada para cada criterio. Esta vista muestra exactamente cómo se determinó la puntuación final. Cuando un criterio se puntúa usando AI, puede pasar el cursor sobre la calificación en la pestaña Puntuación para ver una descripción emergente que muestra la calificación seleccionada, la descripción del criterio y el razonamiento de la AI para esa puntuación, todo en un solo lugar.

Hay varias formas de acceder y enviar revisiones. Haga clic en un monitor para ver todas las revisiones asociadas o en la página Inbox haga clic en Assigned to me para ver directamente todas las revisiones que están a su cargo.

o haga clic en Reviews received para ver directamente todas las revisiones que se han enviado para usted como el compañero que está siendo revisado.

Para completar una revisión:

  1. Abra una conversación desde la vista Assigned to me.

  2. Vaya a la pestaña Puntuación y complete cada criterio de la tarjeta de puntuación.

  3. Las puntuaciones generadas por AI pueden ser anuladas haciendo clic en la calificación.

  4. Una vez que todos los criterios estén puntuados, envíe la revisión o déjela para una acción adicional si es necesario. También puede agregar notas a la revisión para dar contexto sobre por qué una revisión obtuvo esa puntuación.

Nota: Si anteriormente usó estados adicionales de revisión como Fix needed o Won't fix, aún puede filtrar por estos en monitores existentes. Los nuevos monitores solo admiten Unreviewed y Submitted.


Informes

Los informes del Monitor le ayudan a rastrear y medir la calidad de las conversaciones. Puede usar estas métricas para crear informes que destaquen tendencias de calidad e identifiquen áreas de mejora.

Todas las métricas del Monitor están disponibles en el generador de informes personalizados, por lo que puede combinarlas con otros datos de Intercom para crear vistas personalizadas de la calidad de las conversaciones.


Para crear un informe personalizado usando métricas del Monitor, vaya a Reports > + New report > Create your own y seleccione las métricas que necesita de la categoría Monitors. Puede filtrar por tarjeta de puntuación, período de tiempo o cualquier otro atributo para enfocarse en los segmentos más relevantes para su equipo.

Evaluación de la tarjeta de puntuación

Nombre de la métrica

Descripción

Tarjetas de puntuación evaluadas

Número de evaluaciones de tarjetas de puntuación.

Tasa de fallos de la tarjeta de puntuación

Porcentaje de evaluaciones de tarjetas de puntuación que fallaron.

Fallos de la tarjeta de puntuación

Número de evaluaciones de tarjetas de puntuación que fallaron.

Tasa de aprobaciones de la tarjeta de puntuación

Porcentaje de evaluaciones de tarjetas de puntuación que aprobaron.

Aprobaciones de la tarjeta de puntuación

Número de evaluaciones de tarjetas de puntuación que aprobaron.

Puntuación de la tarjeta de puntuación

La puntuación de revisión asignada a las evaluaciones de tarjetas de puntuación.

Evaluación de criterios de la tarjeta de puntuación

La evaluación de criterios de la tarjeta de puntuación son puntos de datos cualitativos usados para categorizar o filtrar sus métricas.

Nombre de la métrica

Descripción

Criterios de tarjeta de puntuación evaluados

Número de evaluaciones de criterios de tarjeta de puntuación.

Fallos de criterios de tarjeta de puntuación

Número de evaluaciones de criterios de tarjeta de puntuación que fallaron.

Aprobaciones de criterios de tarjeta de puntuación

Número de evaluaciones de criterios de tarjeta de puntuación que aprobaron.

Puntuación de criterios de tarjeta de puntuación

La puntuación de revisión asignada a criterios de tarjeta de puntuación

Atributos de informes

Nombre del atributo

Descripción

Monitor

El monitor de QA

Estado de la revisión

El estado actual de la revisión. Para los monitores humanos de QA, los valores pueden ser Unreviewed o Submitted.

Revisado por

El revisor que completó o es responsable de la revisión.

Revisado

El compañero de equipo que está siendo evaluado en la revisión.

Tarjeta de puntuación

La plantilla de evaluación aplicada durante la revisión.

Resultado de la tarjeta de puntuación

El resultado final de la evaluación de la tarjeta de puntuación. Los valores de ejemplo incluyen: Pass, Fail, N/A, Not complete y Not scored.

Puntuación de la tarjeta de puntuación

La puntuación cuantitativa producida por la evaluación de la tarjeta de puntuación.


Permisos

Para editar tarjetas de puntuación y monitores y puntuar conversaciones, los compañeros de equipo necesitan ambos de los siguientes permisos:

  • Puede acceder a la configuración de Fin AI Agent y Automation

  • Puede crear, editar y compartir internamente Reports

Los compañeros de equipo que no tienen ambos permisos no pueden ver los monitores humanos de QA y solo pueden ver las revisiones de su propio trabajo a través de la vista Reviews received. No pueden anular los criterios puntuados por AI en sus propias revisiones.

Nota: Los compañeros de equipo necesitan ambos permisos porque la QA humana combina dos áreas del producto: las tarjetas de puntuación están en Fin AI Agent, y los datos de revisión se integran en Reports. Otorgar solo un permiso dejará al compañero de equipo sin acceso a la función.


Preguntas frecuentes

¿Cómo se evalúan las conversaciones con varios compañeros de equipo?

Solo se evalúa al compañero de equipo asignado a la conversación. Si participaron varios compañeros, solo se puntúan las respuestas del compañero asignado; el resto de la conversación se usa solo como contexto. El hilo completo de la conversación se envía al LLM, con cada parte anotada por autor, luego se usa una instrucción de indicación específica para que califique solo las respuestas de ese compañero y trate todo lo demás solo como contexto.

¿Qué plan necesito para usar Monitors para QA de agentes humanos?

Los Monitors para QA de agentes humanos están disponibles como parte del complemento Pro. No están incluidos en los planes estándar Essential, Advanced o Expert; necesitarás el complemento Pro adjunto a tu suscripción para acceder a las tarjetas de puntuación y a los Monitors humanos de QA. Pro se cobra según el volumen de conversaciones y no por asientos, comenzando en $99/mes para hasta 1,000 conversaciones Pro, con precios escalonados para volumen adicional.

¿Hay límites en la cantidad de Monitors o criterios de tarjetas de puntuación que puedo crear?

Sí, cada espacio de trabajo tiene los siguientes límites:

  • 20 Monitors activos que usan criterios de bandera en lenguaje natural (el campo donde describes en inglés simple qué conversaciones marcar). Los Monitors que solo usan filtros precisos (Estado de resolución, Tema, CX Score) no cuentan para este límite.

  • 20 criterios puntuados por AI en todas tus tarjetas de puntuación. Los criterios puntuados por humanos no cuentan para este límite.

¿El puntaje de AI cuesta extra por cada conversación revisada?

No hay cargo adicional por conversación para el puntaje de AI, está incluido en el complemento Pro; cada conversación se cuenta una vez para tu volumen Pro sin importar cuántos criterios puntuados por AI la evalúen o cuántos Monitors la marquen.

¿Hay límites en la cantidad de conversaciones que puedo tener por mes?

No, los Monitors no tienen un límite mensual separado para revisiones; cada conversación que coincida con un Monitor activo será evaluada. Lo que se factura es tu volumen de conversaciones Pro, no el número de revisiones de Monitors. Si quieres limitar el volumen de conversaciones que van a revisión humana, configura los ajustes de muestreo de tu Monitor; puedes limitar las revisiones a una muestra aleatoria (por ejemplo, 10 conversaciones por día) en lugar de revisar cada coincidencia. También puedes establecer un límite máximo en tu volumen total de conversaciones Pro para mantener la facturación predecible. Una vez alcanzado ese límite, las conversaciones Pro dejan de medirse por el resto del ciclo de facturación.

¿Necesito pagar por cada compañero de equipo que revise?

No, Pro se cobra por volumen de conversaciones, no por asientos. Una vez que tu espacio de trabajo tiene el complemento Pro, puedes revisar conversaciones de cualquier número de compañeros; lo que se factura es el volumen de conversaciones que maneja tu espacio, no el número de compañeros revisados o que hacen la revisión.

¿Qué permisos necesito para configurar y usar QA de agentes humanos?

Para crear tarjetas de puntuación, editar Monitors y puntuar conversaciones, necesitas ambos:

  • Puede acceder a la configuración de Fin AI Agent y Automation, y

  • Puede crear, editar y compartir internamente Reports

Si solo tienes uno de estos permisos, podrás ver las revisiones de tu propio trabajo a través de la vista Reviews received, pero no podrás crear ni editar nada.

¿Un criterio crítico que falla anula mi puntuación de revisión?

No, la puntuación ponderada se calcula normalmente, pero la revisión se marca como Fail sin importar cuál hubiera sido la puntuación ponderada. La anulación crítica se aplica al resultado de aprobado/reprobado, no a la puntuación numérica.

¿Qué significa "Not scored" y en qué se diferencia de una calificación del 0 %?

Una "calificación Not scored" nos indica que se omita completamente el criterio; no contribuirá a la puntuación general de la revisión ni activará un fallo crítico, incluso si está marcado como crítico. Una calificación del 0 % sí cuenta: contribuye peso × 0 a la puntuación general, y si el criterio es crítico, la revisión fallará. Usa Not scored cuando un criterio no se aplique a la conversación específica (por ejemplo, un criterio de tono en una conversación que terminó en una sola respuesta).

¿Por qué mis pesos de criterios no necesitan sumar 100?

Los pesos son proporcionales, no absolutos. Dos criterios con pesos 25 y 75 producen el mismo resultado que dos criterios con pesos 1 y 3; lo que importa es la proporción entre ellos, no el total. Esto significa que puedes ajustar el peso de un criterio sin tener que reequilibrar manualmente los demás.

¿Cuándo la revisión automática omite completamente la cola Unreviewed?

La revisión automática omite la cola No revisada solo cuando se cumplen todas las siguientes condiciones:

  • La tarjeta de puntuación tiene habilitada la revisión automática

  • Cada criterio en la tarjeta de puntuación es puntuado por AI (sin criterios puntuados por humanos)

  • AI pudo puntuar con confianza cada criterio

Si incluso un criterio es puntuado por humanos — o si AI no pudo puntuar un criterio con confianza — la conversación va a la cola No revisada para revisión manual.

¿Puedo cambiar el tipo de un Monitor después de crearlo?

No, una vez que un Monitor se crea como Continuo, Único o Programado, el tipo no puede cambiarse. Si necesitas un tipo diferente, archiva el Monitor existente y crea uno nuevo.

¿Qué pasa con las revisiones existentes si edito una tarjeta de puntuación?

Las revisiones existentes permanecen puntuadas según la versión de la tarjeta de puntuación que estaba activa cuando se crearon. No se vuelven a puntuar con la nueva versión.

Las nuevas conversaciones que coincidan después de la edición se puntúan con la tarjeta de puntuación actualizada. Por eso, ocasionalmente verás revisiones antiguas que hacen referencia a criterios que ya no existen en la tarjeta de puntuación actual.

¿Por qué mi revisor cambió a otra persona después de que edité los criterios?

Cuando cualquier compañero actualiza un criterio en una revisión (ya sea puntuado por AI o manualmente), el revisor de esa revisión se establece automáticamente en quien hizo la edición más reciente. Esto aplica a todas las tarjetas de puntuación, incluidas las revisadas automáticamente: editar una conversación revisada automáticamente reemplazará Auto-reviewed con tu nombre.

El estado de la revisión no cambia automáticamente.

¿Puede la misma conversación aparecer en múltiples Monitors?

Sí, una conversación puede coincidir con los criterios de más de un Monitor: cada Monitor funciona y evalúa de forma independiente, por lo que la conversación puede tener múltiples conjuntos de puntuaciones de tarjetas de puntuación de diferentes revisores. Cuando abres la conversación, verás qué Monitor la marcó para cada conjunto de puntuaciones.

¿Puedo reutilizar criterios en múltiples tarjetas de puntuación?

Sí — una vez que has creado un criterio (nombre + descripción), puedes adjuntarlo a otras tarjetas de puntuación desde el menú + Criteria. Sin embargo, las opciones de calificación y puntuaciones no se transfieren: deberás establecer las calificaciones, puntuaciones y pesos desde cero en cada tarjeta de puntuación a la que agregues el criterio.


Próximamente

  • Consejos de coaching para compañeros: Consejos de coaching impulsados por AI para compañeros que están siendo revisados, así como para gerentes que revisan a esos compañeros.

  • workflows de calibración: La calibración ayuda a los revisores a alinearse en los estándares de evaluación mediante la evaluación de ejemplos compartidos y la comparación de resultados, mejorando la consistencia y la equidad en la retroalimentación y la medición de calidad.

  • workflow de disputa: Los compañeros podrán disputar sus revisiones.

  • Evaluación contra la knowledge base: Puntúa conversaciones contra tu contenido de soporte y políticas, ayudando a asegurar que los compañeros sigan los procesos internos.

  • Ordenar y reorganizar columnas en monitores de QA humanos.

¿Ha quedado contestada tu pregunta?