Ir al contenido principal

Cómo Fin Vision entiende las imágenes

Cómo Fin entiende y usa las imágenes enviadas por los clientes para ofrecer soporte más rápido y preciso.

Escrito por Beth-Ann Sher

Fin Vision es una capacidad integrada de Fin AI Agent que le permite analizar y entender imágenes enviadas por los clientes — capturas de pantalla, fotos e imágenes de documentos (por ejemplo, páginas escaneadas, fotos de recibos o formularios) — directamente dentro de las conversaciones por chat o correo electrónico.

No es necesario habilitar ni configurar nada, y no tiene costo adicional.

Fin Vision ayuda a:

  • Diagnosticar problemas más rápido.

  • Eliminar la necesidad de largas explicaciones por parte del cliente.

  • Extraer y entender contenido visual como mensajes de error, recibos, defectos de productos y más.


Cómo funciona Fin Vision

Fin Vision utiliza modelos de lenguaje multimodales grandes (LLMs) para analizar imágenes enviadas por los clientes en conversaciones por chat o correo electrónico.

Cuando un cliente comparte una imagen, Fin la convierte en una descripción textual estructurada que se convierte en parte del contexto de la conversación. Esta descripción puede incluir:

  • Texto extraído (OCR) de la imagen.

  • Elementos y etiquetas de la interfaz de usuario visibles en capturas de pantalla.

  • Números de referencia y detalles del producto como IDs de pedido o códigos de error.

  • Información contextual derivada de lo que se muestra en la imagen.

Esta comprensión visual permite que Fin razone sobre las imágenes de la misma manera que razona sobre los mensajes escritos de los clientes.

Con este contexto, Fin puede:

  • Buscar en tu knowledge base de manera más efectiva.

  • Resolver tareas que dependen de entradas visuales.

  • Proporcionar respuestas accionables basadas en lo que el cliente realmente ve.

Fin Vision aplica la comprensión multimodal de dos maneras:

  • Para interpretar imágenes que los clientes envían en una conversación.

  • Para evaluar imágenes en tu contenido de soporte al decidir si ayudarían a responder la pregunta de un cliente.


Entendiendo el análisis de imágenes vs. respuestas con imágenes

Fin Vision se centra en analizar imágenes enviadas por los clientes.

Fin también puede incluir imágenes de tu contenido de soporte existente en sus respuestas. Al decidir si incluir una imagen, Fin analiza la imagen misma usando modelos multimodales, junto con el contexto del pasaje circundante y la respuesta que planea enviar.

Nota:

  • Fin nunca genera imágenes — solo usa imágenes que ya existen en tu contenido.

    • Las imágenes aparecen después de la respuesta de texto, no en línea.

    • Fin no usa metadatos de imágenes ni texto alternativo al seleccionar imágenes.

    • Fin solo puede incluir imágenes de fuentes de contenido que preservan los datos de imagen.


Formas de usar Fin Vision

Industria

Casos de uso de ejemplo

FinTech

  • Solución de errores: Capturas de pantalla de transferencias fallidas o problemas de inicio de sesión ayudan a Fin a proporcionar soporte específico.

  • Revisión de alertas de fraude: Fin ayuda a identificar capturas de pantalla de phishing o actividad sospechosa.

SaaS

  • Solución de Bug en la interfaz de usuario: Los clientes comparten capturas de pantalla de errores o comportamientos inesperados de la interfaz; Fin extrae mensajes de error y proporciona soluciones.

  • Ayuda en la incorporación: Fin puede asistir a los clientes a través de flujos de interfaz poco claros basándose en capturas de pantalla compartidas.

  • Verificación de licencia: Fin lee claves de licencia o números de cuenta de facturas subidas.

ecommerce

  • Validación de devoluciones/reembolsos: Los clientes suben imágenes de productos dañados o incorrectos; Fin evalúa la elegibilidad basada en instrucciones de Task.

  • Problemas de envío: Los clientes comparten fotos del embalaje o contenido; Fin determina artículos faltantes o daños en el embalaje.

  • Procesamiento de facturas: Fin extrae números de pedido y fechas de recibos o albaranes.

Gaming/Gambling

  • Reporte de Bug: Los jugadores envían capturas de pantalla de fallos o cierres; Fin interpreta los visuales y registra los problemas.

  • Problemas de retiro: Los clientes suben capturas de pantalla de transacciones fallidas; Fin extrae marcas de tiempo, montos e IDs de transacción.

  • Verificación de slip de apuesta: Fin lee y confirma detalles del slip de apuesta a partir de imágenes subidas.


Maximizando Fin Vision

Fin Vision funciona mejor cuando se combina con Fin Guidance, que te permite definir cómo debe actuar Fin con la información visual.

Usa Fin Vision con Fin Guidance

1. Lectura e interpretación de recibos

Escenario:

Un cliente sube una foto de un recibo de compra y pregunta: "¿Puedes ayudarme con un reembolso por este artículo?"

Cómo trabajan juntos Fin Vision y Guidance:

  • Fin Vision extrae detalles clave de la imagen, como el nombre del artículo, la fecha de compra y el monto total.

  • Fin Guidance proporciona instrucciones personalizadas a Fin, como:
    "Si un cliente pregunta sobre un reembolso y sube un recibo, verifica que la fecha de compra esté dentro de los 30 días. Si es así, guíalos en el proceso de reembolso. Si no, explica cortésmente la política de reembolso."

Resultado:
Fin puede verificar automáticamente la elegibilidad y responder con los siguientes pasos correctos, haciendo referencia a los detalles extraídos del recibo.

2. Reporte de Bug con capturas de pantalla

Escenario:
Un usuario envía una captura de pantalla que muestra un mensaje de error en la app y dice: "Estoy recibiendo este error, ¿qué debo hacer?"

Cómo trabajan juntos Fin Vision y Guidance:

  • Fin Vision analiza la captura de pantalla para identificar el código o mensaje de error.

  • Fin Guidance indica a Fin:
    "Si se detecta un código de error en una captura de pantalla, busca ese código en el help center y proporciona los pasos relevantes para la solución."

Resultado:
Fin puede relacionar rápidamente el error con problemas conocidos y ofrecer soporte específico, reduciendo el ida y vuelta.

3. Identificación de dispositivo para soporte

Escenario:
Un cliente sube una foto de su dispositivo y pregunta: "¿Mi dispositivo es compatible con su servicio?"

Cómo trabajan juntos Fin Vision y Guidance:

  • Fin Vision identifica la marca y modelo del dispositivo a partir de la imagen.

  • Fin Guidance le dice a Fin:
    "Si se reconoce un modelo de dispositivo, verifica la lista de compatibilidad. Si es compatible, confirma y comparte instrucciones de configuración. Si no, explica las limitaciones."

Resultado:
Fin ofrece una respuesta personalizada basada en el dispositivo real, mejorando la precisión y la satisfacción del cliente.

4. Verificación de documentos

Escenario:
Un usuario sube una foto de su identificación para la verificación de cuenta.

Cómo trabajan juntos Fin Vision y Guidance:

  • Fin Vision extrae el nombre, la fecha de nacimiento y el tipo de documento.

  • Fin Guidance indica a Fin:
    "Si el documento subido es una identificación válida y coincide con los datos de la cuenta, procede con la verificación. Si no, solicita una imagen más clara o documentación adicional."

Resultado:
Fin puede automatizar partes del proceso de verificación, reduciendo la revisión manual.

Estrategias de Guidance

  • Lógica condicional: Fin Guidance puede establecer reglas basadas en lo que detecta Fin Vision (por ejemplo, "Si el recibo tiene más de 30 días, haz X").

  • Alternativas: Si Fin Vision no puede extraer la información necesaria, Guidance puede indicar a Fin que pida al cliente una aclaración o una imagen mejor.

  • Personalización: Guidance puede adaptar las respuestas según el contexto visual, haciendo que las interacciones se sientan más humanas y relevantes.


Preguntas frecuentes

¿Qué formatos de imagen soporta Fin Vision?

Fin Vision soporta archivos JPG, PNG, GIF y HEIC compartidos por los clientes.

¿Cómo maneja Fin la privacidad y la información sensible en las imágenes?

Fin está diseñado pensando en la privacidad. Los modelos de visión tienen instrucciones explícitas para no extraer información personal o sensible de las imágenes, como números de tarjeta de crédito, CVV o datos de identificación. Además, las imágenes se almacenan temporalmente y se eliminan automáticamente después de un corto período.

¿Fin almacena imágenes?

Las imágenes se almacenan temporalmente en un entorno seguro en la nube y se eliminan automáticamente después de un corto período.

¿Los clientes necesitan enviar imágenes de una manera específica?

No, los clientes pueden subir o pegar imágenes en el chat o correo electrónico. Fin se encarga del resto.

¿Pueden los clientes enviar múltiples imágenes?

Sí, Fin analizará las últimas cinco imágenes individualmente y usará el contexto para informar las respuestas.

¿Fin genera o envía imágenes?

Fin no genera imágenes. En algunas conversaciones, Fin puede incluir imágenes de tu contenido de soporte existente en las respuestas.

¿Fin Vision soporta múltiples idiomas?

Sí, Fin puede extraer texto de imágenes en muchos idiomas, aunque la precisión depende de la claridad y complejidad.

¿Puedo desactivar Fin Vision?

No, Fin Vision está integrado y no puede desactivarse. Funciona automáticamente como parte de la comprensión de conversaciones de Fin.

¿Puede Fin Vision leer documentos?

Fin ahora puede leer el contenido de archivos PDF que los clientes envían en una conversación. Cuando un cliente comparte un PDF, Fin extrae el texto del archivo y lo usa como contexto para informar su respuesta, tal como lo haría con un mensaje escrito.

Anteriormente, Fin sabía que se había enviado un PDF pero no podía leerlo, lo que a menudo generaba preguntas de seguimiento o respuestas inexactas. La lectura de PDF está disponible en todos los planes, sin necesidad de configuración.

¿Qué tipos de archivos PDF puede leer Fin?

Fin puede leer archivos PDF estándar enviados por los clientes en una conversación. El contenido de texto se extrae del archivo y se utiliza para mejorar la respuesta de Fin. Fin lee los PDFs enviados por los clientes en la conversación; esto es diferente de subir PDFs a tu biblioteca de contenido como fuente de knowledge base.

¿Puede Fin leer imágenes HEIC?

Sí, Fin Vision puede leer y procesar archivos High Efficiency Image Container (HEIC), el formato de foto predeterminado en iPhones. Fin lee imágenes HEIC y responde con contexto relevante, igual que con cualquier otro formato de imagen compatible.

¿Ha quedado contestada tu pregunta?