Ir al contenido principal

Sincroniza y administra sitios web

Cómo sincronizar URLs públicas en Knowledge y habilitar este contenido para Fin.

Escrito por Beth-Ann Sher

Si deseas agregar contenido de sitios web a Intercom y ponerlo a disposición de Fin AI Agent y Copilot, puedes hacerlo sincronizando la URL pública de tu sitio. También puedes entrenar a Fin y Copilot con contenido de publicaciones de blog, registros de cambios, actualizaciones de noticias o cualquier otra página web con fechas. Esto asegura que Fin y Copilot siempre usen la información más actualizada y relevante de estas fuentes.

Nota: Esta función solo funciona con URLs públicas. Si el contenido que deseas usar está detrás de un inicio de sesión, Fin no podrá acceder ni importarlo.


Sincroniza contenido del sitio web con Fin y Copilot

Ve a Fin AI Agent > Train > Content, luego selecciona Sincronización de sitio web bajo “Agregar contenido.”

Ahora ingresa la URL de tu contenido externo de soporte (dominio de nivel superior) y haz clic en Siguiente:

Esto obtendrá todas las páginas de la URL del sitio web que proporciones y leerá todas las páginas de subdominios.

Consejo: Los dominios de nivel superior darán los mejores resultados (por ejemplo, usa la URL de la página principal de tu help center externo https://myhelpcenter.com en lugar de subpáginas https://myhelpcenter.com/articles).

Nota: La sincronización de sitios web tiene un máximo de 100 sitios.

Revisar páginas para sincronizar

Una vez que ingreses tu URL, verificaremos que sea válida y accesible. Luego deberás revisar las páginas para sincronizar. Todas las subpáginas vinculadas en cada sección seleccionada se sincronizarán. Selecciona solo contenido relevante y actualizado.

Consejos:

  • Selecciona páginas y secciones que contengan contenido de soporte como artículos de ayuda, guías o preguntas frecuentes.

  • Evita seleccionar páginas de marketing, listados de productos o páginas con diseños complejos.

  • Todas las subpáginas vinculadas dentro de las secciones seleccionadas se incluirán automáticamente.

  • Siempre puedes actualizar tu selección más adelante en la configuración avanzada.

Configuración avanzada [opcional]

Selecciona el menú desplegable de Configuración avanzada para configurar URLs adicionales, excluir URLs, selectores CSS para excluir, etc.

URLs adicionales

Las estructuras de sitios web pueden variar. Para asegurarte de sincronizar tu contenido más relevante, recomendamos agregar URLs adicionales para esas subpáginas específicas.

Por ejemplo, si ingresas https://myhelpcenter.com/help como la URL principal arriba, también podrías querer agregar la URL específica como https://myhelpcenter.com/help/index.html

URLs para excluir

Para excluir ciertas páginas de las que no quieres sincronizar contenido, puedes agregar una lista de patrones glob de URL.

¿Qué es un patrón glob de URL?

Un glob es una cadena de caracteres literales y/o comodines usados para coincidir con rutas de archivos o URLs. Globbing es el acto de localizar archivos en un sistema de archivos usando uno o más globs. Usar patrones glob de URL también ayuda a obtener un rango de URLs que son mayormente iguales, con solo una pequeña parte que cambia entre las solicitudes.

Por ejemplo, este patrón glob de URL https://{store,docs}.example.com/** permite que el rastreador acceda a todas las URLs que comienzan con https://store.example.com/ o https://docs.example.com/ y https://example.com/**/*\?*foo=*

Consejo: ¿No estás seguro si tu patrón glob coincidirá con las URLs que quieres excluir? Puedes usar DigitalOcean's Glob Tool para probar patrones contra URLs de ejemplo antes de aplicarlos. (Esta es una herramienta de terceros no mantenida por Intercom.)

Elementos de página para incluir

Luego, puedes seleccionar si quieres que solo se incluya el contenido principal de la página o si quieres incluir o excluir elementos específicos de la página seleccionando Personalizado.

Elementos de página para excluir

Para excluir ciertos elementos de la página, puedes usar selectores CSS de esas secciones o elementos específicos que quieres excluir.

Esto es útil para omitir contenido irrelevante de la página. El valor debe ser un selector CSS válido aceptado por la función document.querySelectorAll(). Por defecto, ya eliminamos elementos comunes de navegación, encabezados, pies de página, modales, scripts e imágenes en línea.

Elementos de página clicables

Esto permite que los elementos DOM identificados por el selector CSS puedan ser clicados durante el proceso de sincronización web.

Esto es útil para expandir secciones colapsadas, con el fin de capturar su contenido de texto. El valor debe ser un selector CSS válido aceptado por la función document.querySelectorAll().

Los ejemplos son "[aria-expanded=\"false\"]", #expand_section

Las condiciones complejas también pueden describirse con un selector CSS. En CSS, encadenar selectores sin espacios crea una condición tipo AND, por ejemplo .button.blue.small coincidirá solo con elementos que tengan las tres clases.

Usar coma (,) como separador funciona como OR, por ejemplo .button, .blue, h1 apunta a todos los elementos con clase button, o clase blue, o encabezados de primer nivel.

Esperar para cargar elemento de página

Para apuntar a contenido que puede tener un retraso en aparecer en la página, puedes agregar un selector CSS que hará que el scraper web espere antes de extraer el contenido.

Esto es útil para páginas en las que el reconocimiento predeterminado de carga de contenido por red inactiva falla. Configurar esta opción desactiva completamente el comportamiento predeterminado, y la página se procesará solo si aparece el elemento especificado por este selector.

Nota: El valor debe ser un selector CSS válido aceptado por la función document.querySelectorAll().

Ignorar URLs canónicas

Cuando está habilitado, el scraper web ignora las etiquetas de enlace canónicas (rel="canonical") y trata cada URL como una página distinta. Esta opción está deshabilitada por defecto.

Esto es útil cuando un sitio apunta muchas páginas a una URL canónica y se pierde contenido como resultado.

Región del proxy

Puedes seleccionar un proxy para que el rastreador lo use si requieres que tu sitio web sea rastreado con un proxy configurado a una región o país específico.

Actualmente soportamos los siguientes proxies:

  • Rotativo: Estados Unidos, Alemania, Francia, Reino Unido, Chequia, Hungría

  • Estático:

    • Estados Unidos - 119.13.211.225, 161.123.167.215, 94.176.49.232, 185.223.56.90, 154.17.143.135

    • Europa - 178.171.116.231, 206.232.77.243, 206.232.90.11, 209.20.175.180, 45.94.247.149

    • Australia - 154.220.151.84, 173.254.193.121, 160.224.101.213, 160.224.100.176, 212.70.22.41

Audiencias objetivo

El paso Target te permite establecer una audiencia predeterminada para todas las páginas sincronizadas y crear reglas basadas en URL para asignar automáticamente audiencias específicas según patrones de URL — sin necesidad de etiquetado manual.

Primero decide si el contenido de esta fuente está habilitado para Fin AI Agent y/o Copilot.

Luego puedes establecer una audiencia Fin predeterminada para aplicar a todas las páginas sincronizadas desde esta fuente (si no se establece un valor predeterminado, el contenido se asigna por defecto a Everyone), o crear reglas para asignar audiencias específicas según patrones de URL.

Por ejemplo: Si la URL contiene /uk, asigna la audiencia del Reino Unido. Las reglas se evalúan durante la sincronización, por lo que Fin y Copilot siempre ofrecen el contenido correcto a la audiencia adecuada.

Cada regla admite tres comparadores de URL:

  • Empieza con — coincide con URLs que comienzan con un prefijo dado.

  • Termina con — coincide con URLs que terminan con un sufijo dado.

  • Contiene — coincide con URLs que contienen una subcadena dada.

Nota:

  • Una vista previa en vivo muestra cuántas páginas coinciden con cada regla, ayudándote a validar las reglas antes de guardarlas. Esto requiere que haya un sitemap disponible para tu fuente de sincronización web. Sin un sitemap, las reglas aún se aplican pero no puedes previsualizar las coincidencias.

  • Las reglas se nombran automáticamente al crearlas pero pueden ser renombradas. Se aplica un máximo de 10 reglas por fuente de sincronización web.

  • Las reglas de audiencia son solo aditivas: agregan audiencias al contenido pero nunca eliminan asignaciones existentes. Eliminar una regla no deshace sus asignaciones de audiencia pasadas.

Revisar configuración de sincronización

Finalmente, revisa tu configuración de sincronización y luego haz clic en Sync website para comenzar a sincronizar el contenido de tu sitio web con Intercom.


Gestionar sincronizaciones de sitios web

Una vez que la sincronización esté completa, recibirás una notificación por correo electrónico y el sitio web aparecerá como una fuente sincronizada bajo Fin AI Agent > Train > Content.

Configurar ajustes para páginas específicas

Ve a Fin AI Agent > Train > Content, selecciona la fuente del sitio web y luego haz clic en una página que hayas sincronizado. Encontrarás un panel "Detalles" a la derecha que contiene:

  • Datos: Ver el tipo de contenido, idioma, fecha de creación y última actualización (cuando fue sincronizado por última vez con la fuente).

  • Fin settings: Para habilitar/deshabilitar para Fin AI Agent y Copilot. Cuando está habilitado, el contenido está disponible para los clientes a través de Fin AI Agent y para los compañeros de equipo vía Copilot, respectivamente.

  • Enlace: La URL pública para esta fuente del sitio web.

  • Informes: Las conversaciones de Fin donde esta fuente del sitio web ha estado involucrada o resuelta.

  • Etiquetas: Para aplicar tus propias etiquetas personalizadas para agrupar y organizar contenido en Intercom.

  • Carpeta: La carpeta donde vive esta URL pública en el Knowledge Hub. No puedes cambiar la carpeta del contenido sincronizado.

Nota: Las fuentes de sitios web son solo de lectura y no pueden ser editadas dentro de Intercom, deben ser editadas en la fuente.

Hazlo disponible para Fin y Copilot

Para hacer que una fuente de sitio web esté disponible para Fin AI Agent y/o Copilot, ve a Fin AI Agent > Train > Content, selecciona la fuente del sitio web, luego haz clic en la(s) página(s) en vivo que hayas sincronizado y selecciona Cambiar estado del AI Agent > Habilitar para AI Agent o Cambiar estado de Copilot > Habilitar para Copilot.

También puedes gestionar estos ajustes desde una página web individual en el panel "Detalles", desplázate hacia abajo hasta Fin settings y elige si activar:

  • Fin AI Agent - Esta configuración hará que la URL pública esté disponible para que Fin la use al responder a los clientes.

  • Copilot - Esta configuración hará que la URL pública esté disponible para que Copilot la use al responder preguntas de compañeros en el inbox a través del panel de Copilot.

Aprende cómo configurar Fin AI Agent para tus clientes o habilitar a tu equipo para usar Copilot en el inbox.

Hazlo disponible para una audiencia específica

Puedes asignar audiencias al contenido sincronizado automáticamente usando reglas basadas en URL durante la creación de la sincronización web, o manualmente página por página. Primero, necesitarás crear y definir la audiencia que deseas targetear.

Para asignar una audiencia manualmente a páginas individuales, ve a Fin AI Agent > Train > Content, selecciona la fuente del sitio web, luego haz clic en la(s) página(s) en vivo que hayas sincronizado y selecciona Más acciones > Cambiar audiencia Fin.

Nota:

  • La audiencia predeterminada para URLs públicas es “Everyone”.

  • Fin respetará cualquier audiencia que apliques a una URL pública y solo usará este artículo para responder preguntas de clientes si coinciden con las reglas de audiencia.

Agregar o editar reglas de audiencia en sincronizaciones existentes

No necesitas recrear una sincronización para agregar segmentación de audiencia. Ve a Fin AI Agent > Train > Content, selecciona la fuente, haz clic en el menú de configuración en la parte superior derecha y selecciona Abrir configuración. Navega al paso Target para agregar o editar reglas basadas en URL.

Nota: Cuando se agregan reglas de audiencia a una sincronización web existente, se aplican retroactivamente a todo el contenido ya ingerido de esa fuente — no solo al contenido nuevo en adelante.

Volver a sincronizar o eliminar un sitio web como fuente

Si deseas volver a sincronizar o eliminar una URL pública como fuente, ve a Fin AI Agent > Train > Content y selecciona la fuente. Luego haz clic en el menú de configuración en la parte superior derecha y selecciona Volver a sincronizar o Eliminar esta fuente.

Consejo: Las re-sincronizaciones de sitios web usualmente ocurren semanalmente (dependiendo del tamaño de la fuente) y pueden ser re-sincronizadas manualmente en cualquier momento.

Gestionar configuración de sincronización de sitios web

Si deseas ajustar la configuración avanzada para una sincronización de sitio web, ve a Fin AI Agent > Train > Content y selecciona la fuente. Luego haz clic en el menú de configuración en la parte superior derecha y selecciona Abrir configuración.

Ver historial de sincronización del sitio web

Puedes ver una lista de sincronizaciones pasadas del sitio web para saber cuándo se ejecutaron por última vez, qué páginas se encontraron y cuáles fallaron. Ve a Fin AI Agent > Train > Content y selecciona la fuente del sitio web, luego haz clic en el menú desplegable de configuración en la esquina superior derecha y selecciona Ver historial de sincronización.


Cada fila en la tabla representa una ejecución pasada o activa, y puedes filtrar las ejecuciones por estado. Incluye la siguiente información:

  • Fecha de sincronización

  • Estado

  • Páginas sincronizadas

  • Páginas excluidas

  • Páginas fallidas

  • Duración

  • Sincronización iniciada por

Si una sincronización ha fallado, puedes pasar el cursor sobre el estado para ver una explicación detallada del motivo.


Solución de problemas de sincronización del sitio web

Problemas comunes

Al importar contenido del sitio web para habilitar Fin, debes ingresar la URL pública. Esto buscará todas las páginas anidadas bajo esa URL y las sincronizará para que Fin AI Agent las use.

Si el importador no devolvió el número de páginas que esperabas, hay algunas razones...

La URL proporcionada no es el domain de nivel superior

La sincronización del sitio web funciona yendo a la URL que proporcionas y luego buscando todas las páginas anidadas bajo esa URL. Estas páginas deben tener el mismo patrón de URL que la URL que proporcionas.

Por ejemplo, si el domain de nivel superior es https://myhelpcenter.com/home, entonces todas las páginas que quieras importar deben incluir el prefijo /home en la URL, por ejemplo, https://myhelpcenter.com/home/article. Si no lo hacen, elimina el prefijo y usa el tallo de URL más básico, por ejemplo, https://myhelpcenter.com, luego intenta importar de nuevo.

La URL es privada

Si el contenido que quieres usar está detrás de un inicio de sesión, Fin no podrá acceder ni importarlo.

Límites de páginas

Puedes sincronizar hasta 100 diferentes domain de nivel superior y Fin sincronizará un máximo de 30,000 páginas de cada fuente. La sincronización puede fallar a veces si hay una cantidad muy grande de contenido en una sola página (se te notificará si una sincronización falla).

Nota:
Si tu sitio supera este límite de tamaño, puedes probar la siguiente solución:

  • Divide el sitio en secciones más pequeñas.

  • Sincroniza diferentes rutas de URL por separado.

  • Esto reduce el tamaño de la página por sincronización y ayuda a prevenir fallos en la sincronización.

Sitios web restringidos a IP regionales específicas

La sincronización del sitio web de Intercom (usada para agregar URLs públicas para Fin AI Agent y Copilot) no usa una cadena de agente de usuario dedicada y personalizada en este momento.


Para identificar o permitir estas solicitudes:

  • Por dirección IP: Nuestro rastreador normalmente usa IPs dinámicas. Si tu sitio requiere lista blanca, contáctanos y podemos habilitar IPs estáticas específicas por región para tu espacio de trabajo.

  • Estas solicitudes se usan solo para la sincronización del sitio web. No afectan el tráfico de tu Messenger ni el seguimiento de usuarios finales.

Las páginas de sitios no ingleses o internacionales no se están sincronizando

Si tu sitemap incluye URLs con caracteres no ASCII (como letras acentuadas o escrituras como chino o árabe), algunas de esas páginas pueden no sincronizarse como se espera. El descubrimiento del sitemap ahora soporta estas URLs, pero aún pueden tener problemas en otras partes del proceso de sincronización. Intenta sincronizar manualmente para resolverlo. Si las páginas siguen faltando, contacta al soporte.

Errores de sincronización del sitio web

Cuando sincronizas contenido, puedes ver diferentes estados que indican qué ocurrió durante el proceso. Para ver el estado de sincronización de tu sitio web, ve a Fin AI Agent > Train > Content y selecciona la fuente del sitio web, luego usa el menú desplegable Estado para filtrar por:

  • Sincronizando

  • En vivo

  • Fallido

  • Excluido

Esto es lo que significa cada uno y qué puedes hacer a continuación:

Sincronizando

La sincronización de la página aún está en progreso. Una sincronización inicial puede tomar desde unos minutos hasta más de una hora, dependiendo de la cantidad de contenido que tengas.

En vivo

La página se sincronizó correctamente y puede ser habilitada para Fin y Copilot.

Nota: Una sincronización exitosa no siempre significa que pudimos extraer todo el contenido de la página. Si quieres confirmar la cobertura completa, recomendamos previsualizar Fin con las respuestas que esperas que encuentre en esa página.

Excluido

Estas páginas no se sincronizan intencionalmente porque las excluiste en tu configuración de sincronización. No se pueden reintentar ni incluir a menos que se especifique lo contrario.

Fallido

Estos errores significan que la sincronización no se completó y pueden requerir cambios de tu parte antes de reintentar:

1. Error desconocido

  • Mensaje: “No se pudo acceder a esta página. Puede estar lenta o bloqueada. Intenta sincronizar de nuevo o contacta con soporte si falla.”

  • Qué significa: Algo nos impidió acceder a la página, pero la causa no está clara.

2. Sesión bloqueada / Límite de tasa

  • Mensaje: “El sitio web nos está impidiendo acceder a su contenido. Verifica si está bloqueado por una configuración anti-crawler o firewall. Revisa la configuración de tu sitio e intenta sincronizar de nuevo. Si el problema persiste, contacta con soporte.”

  • Qué significa: Tu sitio está bloqueando o limitando activamente nuestro crawler.

3. Errores de red, tiempo de espera o similares

  • Mensaje: “No se pudo acceder a esta página. Puede estar lenta para cargar o bloqueada por configuraciones anti-crawler o firewall. Revisa la configuración de tu sitio e intenta sincronizar de nuevo. Si el problema persiste, contacta con soporte.”

  • Qué significa: La página no cargó a tiempo o no se pudo alcanzar debido a problemas de red o bloqueo.

4. Duplicado

  • Mensaje: “Esta página tiene el mismo contenido que otra que ya está sincronizada. Solo se incluirá una versión.”

  • Qué significa: Detectamos contenido idéntico en otro lugar, por lo que solo se conserva una copia.

5. Filtrado por palabra clave

  • Mensaje: “Las páginas con palabras clave como category, collection o tag en la URL se excluyen por defecto, ya que usualmente no contienen contenido único. Si esta página debe incluirse, contacta con soporte.”

  • Qué significa: Estas URLs suelen representar listas, no páginas de contenido independientes.

6. Código de estado 400

  • Mensaje: “No se puede encontrar el contenido de la página. Verifica que la URL sea válida y que la página cargue sin problemas.”

  • Qué significa: La URL puede estar rota o devolver un error en tu sitio web.

7. URL bloqueada

  • Mensaje: “Este domain está bloqueado para sincronizar. Si lo necesitas, contacta con soporte.”

  • Qué significa: El domain está intencionalmente excluido de la sincronización.


​Puedes reintentar una sincronización fallida de página pasando el cursor sobre la página, seleccionando el menú de tres puntos y luego seleccionando Resync.

Nota: Website Sync no soporta importar archivos Markdown sin procesar. Para un formato adecuado y detección de títulos, debes proporcionar contenido como HTML renderizado o subirlo como fragmento/archivo. La estructura Markdown (por ejemplo, encabezados #) no será reconocida a menos que se convierta a HTML.

¿Ha quedado contestada tu pregunta?