Si vous souhaitez ajouter du contenu de site web à Intercom et le rendre disponible pour Fin AI Agent et Copilot, vous pouvez le faire en synchronisant l'URL publique de votre site. Vous pouvez également entraîner Fin et Copilot avec du contenu provenant d'articles de blog, de journaux de modifications, de mises à jour d'actualités ou de toute autre page web datée. Cela garantit que Fin et Copilot utilisent toujours les informations les plus récentes et pertinentes de ces sources.

Note : Cette fonctionnalité fonctionne uniquement avec des URL publiques. Si le contenu que vous souhaitez utiliser est protégé par une connexion, Fin ne pourra pas y accéder ni l'importer.

Synchroniser le contenu du site web avec Fin et Copilot

Allez dans Fin AI Agent > Train > Content, puis sélectionnez Synchronisation du site web sous « Ajouter du contenu ».

Saisissez maintenant l'URL de votre contenu d'assistance externe (top-level domain) et cliquez sur Suivant :

Cela récupérera toutes les pages de l'URL du site web que vous fournissez et lira toutes les pages des sous-domaines.

Astuce : Les top-level domains donnent les meilleurs résultats (par exemple, utilisez l'URL de la page d'accueil de votre help center externe https://myhelpcenter.com plutôt que des sous-pages https://myhelpcenter.com/articles).

Note : La synchronisation du site web est limitée à 100 sites.

Vérifier les pages à synchroniser

Une fois que vous avez saisi votre URL, nous vérifierons qu'elle est valide et accessible. Ensuite, vous devrez examiner les pages à synchroniser. Toutes les sous-pages liées dans chaque section sélectionnée seront synchronisées. Sélectionnez uniquement le contenu pertinent et à jour.

Conseils :

Sélectionnez les pages et sections contenant du contenu d'assistance comme des articles d'aide, des guides ou des FAQ.
Évitez de sélectionner des pages marketing, des listes de produits ou des pages avec des mises en page complexes.
Toutes les sous-pages liées dans les sections sélectionnées seront automatiquement incluses.
Vous pouvez toujours mettre à jour votre sélection plus tard dans les paramètres avancés.

Paramètres avancés `[optionnel]`

Sélectionnez le menu déroulant Paramètres avancés pour configurer des URL supplémentaires, exclure des URL, des sélecteurs CSS à exclure, etc.

URL supplémentaires

Les structures de sites web peuvent varier. Pour vous assurer de synchroniser votre contenu le plus pertinent, nous vous recommandons d'ajouter des URL supplémentaires pour ces sous-pages spécifiques.

Par exemple, si vous saisissez https://myhelpcenter.com/help comme URL principale ci-dessus, vous pouvez également vouloir ajouter l'URL spécifique comme https://myhelpcenter.com/help/index.html

URL à exclure

Pour exclure certaines pages dont vous ne souhaitez pas synchroniser le contenu, vous pouvez ajouter une liste de glob d'URL.

Qu'est-ce qu'un glob d'URL ?

Un glob est une chaîne de caractères littéraux et/ou génériques utilisée pour faire correspondre des chemins de fichiers ou des URL. Le globbing est l'action de localiser des fichiers sur un système de fichiers en utilisant un ou plusieurs globs. L'utilisation de glob d'URL permet également d'obtenir une plage d'URL qui sont majoritairement identiques, avec seulement une petite partie qui change entre les requêtes.

Par exemple, ce glob d'URL https://{store,docs}.example.com/** permet au robot d'accéder à toutes les URL commençant par https://store.example.com/ ou https://docs.example.com/ et https://example.com/**/*\?*foo=*

Astuce : Vous ne savez pas si votre motif glob correspondra aux URL que vous souhaitez exclure ? Vous pouvez utiliser l'outil Glob de DigitalOcean pour tester les motifs sur des URL d'exemple avant de les appliquer. (Ceci est un outil tiers non maintenu par Intercom.)

Éléments de page à inclure

Ensuite, vous pouvez choisir si vous souhaitez inclure uniquement le contenu principal de la page ou si vous souhaitez inclure ou exclure un élément spécifique de la page en sélectionnant Personnalisé.

Éléments de page à exclure

Pour exclure certains éléments de page, vous pouvez utiliser des sélecteurs CSS des sections ou éléments spécifiques que vous souhaitez exclure.

Cela est utile pour ignorer le contenu de page non pertinent. La valeur doit être un sélecteur CSS valide accepté par la fonction document.querySelectorAll(). Par défaut, nous supprimons déjà les éléments de navigation courants, les en-têtes, pieds de page, modaux, scripts et images en ligne.

Éléments de page cliquables

Cela permet aux éléments DOM identifiés par le sélecteur CSS d'être cliqués pendant le processus de synchronisation web.

Cela est utile pour développer les sections repliées, afin de capturer leur contenu textuel. La valeur doit être un sélecteur CSS valide accepté par la fonction document.querySelectorAll().

Des exemples sont "[aria-expanded=\"false\"]", #expand_section

Des conditions complexes peuvent également être décrites avec un sélecteur CSS. En CSS, chaîner les sélecteurs sans espaces crée une condition de type ET, par exemple .button.blue.small correspondra uniquement aux éléments ayant les trois classes.

Utiliser la virgule (,) comme séparateur fonctionne comme OU, par exemple .button, .blue, h1 cible tous les éléments avec la classe button, ou la classe blue, ou les titres de premier niveau.

Attendre le chargement de l'élément de page

Pour cibler un contenu qui peut avoir un délai d'apparition sur la page, vous pouvez ajouter un sélecteur CSS qui fera attendre le scraper web avant de récupérer le contenu.

Cela est utile pour les pages dont la reconnaissance du chargement de contenu par défaut en réseau inactif échoue. Activer cette option désactive complètement le comportement par défaut, et la page ne sera traitée que si l'élément spécifié par ce sélecteur apparaît.

Note : La valeur doit être un sélecteur CSS valide accepté par la fonction document.querySelectorAll().

Ignorer les URL canoniques

Lorsqu'elle est activée, le scraper web ignore les balises de lien canonical (rel="canonical") et traite chaque URL comme une page distincte. Cette option est désactivée par défaut.

Cela est utile lorsqu'un site pointe plusieurs pages vers une URL canonique et que du contenu est manqué en conséquence.

Région du proxy

Vous pouvez sélectionner un proxy pour le robot d'exploration si vous souhaitez que votre site web soit exploré avec un proxy configuré sur une région ou un pays spécifique.

Nous supportons actuellement les proxies suivants :

Rotatif : États-Unis, Allemagne, France, Royaume-Uni, Tchéquie, Hongrie
Statique :
- États-Unis - 119.13.211.225, 161.123.167.215, 94.176.49.232, 185.223.56.90, 154.17.143.135
- Europe - 178.171.116.231, 206.232.77.243, 206.232.90.11, 209.20.175.180, 45.94.247.149
- Australie - 154.220.151.84, 173.254.193.121, 160.224.101.213, 160.224.100.176, 212.70.22.41

Audiences cibles

L’étape Target vous permet de définir une audience par défaut pour toutes les pages synchronisées et de créer des règles basées sur l’URL pour attribuer automatiquement des audiences spécifiques selon les modèles d’URL — sans étiquetage manuel.

Décidez d’abord si le contenu de cette source est activé pour Fin AI Agent et/ou Copilot.

Ensuite, vous pouvez soit définir une audience Fin par défaut à appliquer à toutes les pages synchronisées depuis cette source (si aucune valeur par défaut n’est définie, le contenu est par défaut pour Everyone), soit créer des règles pour attribuer des audiences spécifiques selon les modèles d’URL.

Par exemple : Si l’URL contient /uk, attribuez l’audience UK. Les règles sont évaluées lors de la synchronisation, donc Fin et Copilot servent toujours le bon contenu à la bonne audience.

Chaque règle prend en charge trois comparateurs d’URL :

Commence par — correspond aux URL commençant par un préfixe donné.
Se termine par — correspond aux URL se terminant par un suffixe donné.
Contient — correspond aux URL contenant une sous-chaîne donnée.

Note :

Un aperçu en direct montre combien de pages correspondent à chaque règle, vous aidant à valider les règles avant de les enregistrer. Cela nécessite un sitemap disponible pour votre source de synchronisation web. Sans sitemap, les règles s’appliquent toujours mais vous ne pouvez pas prévisualiser les correspondances.
Les règles sont nommées automatiquement à la création mais peuvent être renommées. Un maximum de 10 règles par source de synchronisation web est appliqué.
Les règles d’audience sont uniquement additives : elles ajoutent des audiences au contenu mais ne suppriment jamais les affectations existantes. Supprimer une règle ne supprime pas ses affectations d’audience passées.

Revoir les paramètres de synchronisation

Enfin, révisez vos paramètres de synchronisation puis cliquez sur Sync website pour commencer à synchroniser le contenu de votre site avec Intercom.

Gérer les synchronisations de site web

Une fois la synchronisation terminée, vous recevrez une notification par email et le site apparaîtra comme source synchronisée sous Fin AI Agent > Train > Content.

Configurer les paramètres pour des pages spécifiques

Allez à Fin AI Agent > Train > Content, sélectionnez la source du site, puis cliquez sur une page que vous avez synchronisée. Vous trouverez un panneau "Détails" à droite contenant :

Données : Voir le type de contenu, la langue, la date de création et la dernière mise à jour (quand elle a été synchronisée pour la dernière fois avec la source).
Paramètres Fin : Pour activer/désactiver pour Fin AI Agent et Copilot. Lorsqu’activé, le contenu devient disponible pour les clients via Fin AI Agent et pour les coéquipiers via Copilot, respectivement.
Lien : L’URL publique pour cette source de site web.
Rapports : Les conversations Fin où cette source de site web a été impliquée ou résolue.
Tags : Pour appliquer vos propres tags personnalisés pour regrouper et organiser le contenu dans Intercom.
Dossier : Le dossier où cette URL publique se trouve dans le Knowledge Hub. Vous ne pouvez pas changer le dossier du contenu synchronisé.

Note : Les sources de site web sont en lecture seule et ne peuvent pas être modifiées dans Intercom, elles doivent être modifiées à la source.

Rendez-le disponible pour Fin et Copilot

Pour rendre une source de site web disponible pour Fin AI Agent et/ou Copilot, allez à Fin AI Agent > Train > Content, sélectionnez la source du site, puis cliquez sur la ou les pages en direct que vous avez synchronisées et sélectionnez Change AI Agent state > Enable for AI Agent ou Change Copilot state > Enable for Copilot.

Vous pouvez aussi gérer ces paramètres depuis une page web individuelle dans le panneau "Détails" , faites défiler jusqu’aux paramètres Fin et choisissez d’activer ou non :

Fin AI Agent - Ce paramètre rendra l’URL publique disponible pour Fin lorsqu’il répondra aux clients.
Copilot - Ce paramètre rendra l’URL publique disponible pour Copilot lorsqu’il répondra aux questions des coéquipiers dans l’inbox via le panneau Copilot.

Apprenez comment configurer Fin AI Agent pour vos clients ou permettre à votre équipe d’utiliser Copilot dans l’inbox.

Rendez-le disponible à une audience spécifique

Vous pouvez attribuer des audiences au contenu synchronisé automatiquement en utilisant des règles basées sur l’URL lors de la création de la synchronisation web, ou manuellement page par page. D’abord, vous devez créer et définir l’audience que vous souhaitez cibler.

Pour attribuer manuellement une audience à des pages individuelles, allez à Fin AI Agent > Train > Content, sélectionnez la source du site, puis cliquez sur la ou les pages en direct que vous avez synchronisées et sélectionnez More actions > Change Fin audience.

Note :

L’audience par défaut pour les URL publiques est « Everyone ».
Fin respectera toute audience que vous appliquez à une URL publique et n’utilisera cet article pour répondre aux questions des clients que si elles correspondent aux règles d’audience.

Ajouter ou modifier des règles d’audience sur des synchronisations existantes

Vous n’avez pas besoin de recréer une synchronisation pour ajouter un ciblage d’audience. Allez à Fin AI Agent > Train > Content, sélectionnez la source, cliquez sur le menu des paramètres en haut à droite, et sélectionnez Open settings. Naviguez à l’étape Target pour ajouter ou modifier des règles basées sur l’URL.

Note : Lorsqu’on ajoute des règles d’audience à une synchronisation web existante, elles s’appliquent rétroactivement à tout le contenu déjà ingéré depuis cette source — pas seulement au nouveau contenu à venir.

Resynchroniser ou supprimer un site web en tant que source

Si vous souhaitez resynchroniser ou supprimer une URL publique en tant que source, allez à Fin AI Agent > Train > Content et sélectionnez la source. Puis cliquez sur le menu des paramètres en haut à droite et sélectionnez Re-sync ou Remove this source.

Astuce : Les resynchronisations de site web ont généralement lieu hebdomadairement (selon la taille de la source) et peuvent être resynchronisées manuellement à tout moment.

Gérer les paramètres de synchronisation du site web

Si vous souhaitez ajuster les paramètres avancés d’une synchronisation de site web, allez à Fin AI Agent > Train > Content et sélectionnez la source. Puis cliquez sur le menu des paramètres en haut à droite et sélectionnez Open settings.

Afficher l'historique de synchronisation du site web

Vous pouvez consulter la liste des synchronisations passées du site web pour voir quand elles ont été effectuées, quelles pages ont été trouvées et quelles pages ont échoué. Allez dans Fin AI Agent > Train > Content et sélectionnez la source du site web, puis cliquez sur le menu déroulant des paramètres en haut à droite et sélectionnez Afficher l'historique de synchronisation.

Chaque ligne du tableau représente une exécution passée ou en cours, et vous pouvez filtrer les exécutions par statut. Elle inclut les informations suivantes :

Date de synchronisation
Statut
Pages synchronisées
Pages exclues
Pages échouées
Durée
Synchronisation lancée par

Si une synchronisation a échoué, vous pouvez survoler le statut pour voir une explication détaillée du motif.

Dépannage de la synchronisation du site web

Problèmes courants

Lors de l'importation du contenu du site web pour activer Fin, vous devez saisir l'URL publique. Cela recherchera toutes les pages imbriquées sous cette URL et les synchronisera pour que Fin AI Agent puisse les utiliser.

Si l'importateur n'a pas retourné le nombre de pages attendu, plusieurs raisons peuvent expliquer cela...

L'URL fournie n'est pas le domain de premier niveau

La synchronisation du site web fonctionne en allant à l'URL que vous fournissez, puis en recherchant toutes les pages imbriquées sous cette URL. Ces pages doivent avoir le même modèle d'URL que l'URL que vous fournissez.

Par exemple, si le domain de premier niveau est https://myhelpcenter.com/home, alors toutes les pages que vous souhaitez importer doivent inclure le préfixe /home dans l'URL, par ex. https://myhelpcenter.com/home/article. Si ce n'est pas le cas, retirez le préfixe et utilisez la racine d'URL la plus basique, par ex. https://myhelpcenter.com, puis essayez à nouveau l'importation.

L'URL est privée

Si le contenu que vous souhaitez utiliser est derrière une connexion, Fin ne pourra pas y accéder ni l'importer.

Limites de pages

Vous pouvez synchroniser jusqu'à 100 domain différents de premier niveau et Fin synchronisera un maximum de 30 000 pages par source. La synchronisation peut parfois échouer s'il y a une très grande quantité de contenu sur une seule page (vous serez averti si une synchronisation échoue).

Note :
Si votre site dépasse cette limite de taille, vous pouvez essayer la solution suivante :

Divisez le site en sections plus petites.
Synchronisez séparément différents chemins d'URL.
Cela réduit la taille des pages par synchronisation et aide à prévenir les échecs de synchronisation.

Sites web restreints à des IP régionales spécifiques

La synchronisation du site web d'Intercom (utilisée pour ajouter des URL publiques pour Fin AI Agent et Copilot) n'utilise pas de chaîne user-agent dédiée et personnalisée pour le moment.

Pour identifier ou autoriser ces requêtes :

Par adresse IP : Notre crawler utilise normalement des IP dynamiques. Si votre site nécessite une liste blanche, contactez-nous et nous pouvons activer des IP statiques spécifiques à une région pour votre espace de travail.
Ces requêtes sont utilisées uniquement pour la synchronisation du site web. Elles n'affectent pas le trafic de votre Messenger ni le suivi des utilisateurs finaux.

Les pages des sites non anglophones ou internationaux ne se synchronisent pas

Si votre sitemap inclut des URL avec des caractères non ASCII (comme des lettres accentuées, ou des scripts comme le chinois ou l'arabe), certaines de ces pages peuvent ne pas se synchroniser comme prévu. La découverte du sitemap prend désormais en charge ces URL, mais elles peuvent encore rencontrer des problèmes dans d'autres parties du processus de synchronisation. Essayez de resynchroniser manuellement pour résoudre le problème. Si des pages manquent toujours, contactez le support.

Erreurs de synchronisation du site web

Lorsque vous synchronisez du contenu, vous pouvez voir différents statuts qui indiquent ce qui s'est passé pendant le processus. Pour voir le statut de synchronisation de votre site web, allez dans Fin AI Agent > Train > Content et sélectionnez la source du site web, puis utilisez le menu déroulant Statut pour filtrer par :

Synchronisation en cours
En direct
Échoué
Exclu

Voici ce que chacun signifie et ce que vous pouvez faire ensuite :

Synchronisation en cours

La synchronisation des pages est toujours en cours. Une synchronisation initiale peut prendre de quelques minutes à plus d'une heure selon la quantité de contenu que vous avez.

En direct

La page a été synchronisée avec succès et peut être activée pour Fin et Copilot.

Note : Une synchronisation réussie ne signifie pas toujours que nous avons pu extraire tout le contenu de la page. Si vous souhaitez confirmer la couverture complète, nous vous recommandons de prévisualiser Fin avec les réponses que vous attendez de cette page.

Exclu

Ces pages ne sont pas synchronisées intentionnellement car vous les avez exclues dans vos paramètres de synchronisation. Elles ne sont pas réessayables et ne peuvent pas être incluses sauf indication contraire.

Échoué

Ces erreurs signifient que la synchronisation n'a pas été complétée et peuvent nécessiter des modifications de votre part avant de réessayer :

1. Erreur inconnue

Message : « Cette page n'a pas pu être accessible. Elle peut être lente ou bloquée. Essayez de synchroniser à nouveau, ou contactez le support si cela échoue. »
Ce que cela signifie : Quelque chose nous a empêchés d'accéder à la page, mais la cause n’est pas claire.

2. Session bloquée / Limitation de débit

Message : « Le site web nous empêche d'accéder à son contenu. Vérifiez s'il est bloqué par un paramètre anti-crawler ou un pare-feu. Vérifiez la configuration de votre site et essayez de synchroniser à nouveau. Si le problème persiste, contactez le support. »
Ce que cela signifie : Votre site bloque ou limite activement notre crawler.

3. Erreurs réseau, délai d'attente ou similaires

Message : « Cette page n'a pas pu être accessible. Elle peut être lente à charger ou bloquée par des paramètres anti-crawler ou un pare-feu. Vérifiez la configuration de votre site et essayez de synchroniser à nouveau. Si le problème persiste, contactez le support. »
Ce que cela signifie : La page ne s'est pas chargée à temps ou n'a pas pu être atteinte en raison de problèmes réseau ou de blocage.

4. Dupliqué

Message : « Cette page a le même contenu qu'une autre déjà synchronisée. Une seule version sera incluse. »
Ce que cela signifie : Nous avons détecté un contenu identique ailleurs, donc une seule copie est conservée.

5. Filtrage par mot-clé

Message : « Les pages avec des mots-clés comme category, collection ou tag dans l'URL sont exclues par défaut, car elles ne contiennent généralement pas de contenu unique. Si cette page doit être incluse, contactez le support. »
Ce que cela signifie : Ces URLs représentent souvent des listes, pas des pages de contenu autonomes.

6. Code d'état 400

Message : « Le contenu de la page est introuvable. Vérifiez que l'URL est valide et que la page se charge sans problème.
Ce que cela signifie : L'URL peut être cassée ou renvoyer une erreur sur votre site web.

7. URL bloquée

Message : « Ce domain est bloqué pour la synchronisation. Si vous en avez besoin, contactez le support. »
Ce que cela signifie : Le domain est intentionnellement exclu de la synchronisation.

Vous pouvez réessayer une synchronisation de page échouée en survolant la page, en sélectionnant le menu à trois points puis en choisissant Resync.

Note : Website Sync ne supporte pas l'importation de fichiers Markdown bruts. Pour un formatage correct et la détection des titres, vous devez fournir le contenu sous forme de HTML rendu ou le télécharger en tant que snippet/fichier. La structure Markdown (par ex., # titres) ne sera pas reconnue sauf si convertie en HTML.

Synchroniser et gérer les sites web