メインコンテンツにスキップ

ウェブサイトの同期と管理

Knowledgeの公開URLを同期し、このコンテンツをFinで利用可能にする方法。

対応者:Beth-Ann Sher

ウェブサイトのコンテンツをIntercomに追加し、Fin AI AgentCopilotで利用可能にしたい場合は、サイトの公開URLを同期してください。ブログ記事、変更履歴、ニュース更新、または日付付きの他のウェブページのコンテンツでFinとCopilotをトレーニングすることもできます。これにより、FinとCopilotは常にこれらの情報源から最新かつ関連性の高い情報を使用します。

注意:この機能は公開URLのみで動作します。ログインが必要なコンテンツはFinがアクセスまたはインポートできません。


FinとCopilotでウェブサイトのコンテンツを同期する

Fin AI Agent > トレーニング > コンテンツに移動し、「コンテンツを追加」からウェブサイト同期を選択します。

外部サポートコンテンツのURL(トップレベルドメイン)を入力し、次へをクリックします。

入力したウェブサイトURLのすべてのページを取得し、すべてのサブドメインページから読み取ります。

ヒント:トップレベルドメインが最良の結果をもたらします(例:サブページhttps://myhelpcenter.com/articlesよりも外部help centerのホームページURLhttps://myhelpcenter.comを使用してください)。

注意:ウェブサイト同期は最大100サイトまでです。

同期するページを確認する

URLを入力すると、有効でアクセス可能か確認します。その後、同期するページを確認してください。選択した各セクションにリンクされたすべてのサブページが同期されます。関連性のある最新のコンテンツのみを選択してください。

ヒント:

  • ヘルプ記事、ガイド、FAQなどのサポートコンテンツを含むページやセクションを選択してください。

  • マーケティングページ、商品リスト、複雑なレイアウトのページは選択しないでください。

  • 選択したセクション内のすべてのリンクされたサブページは自動的に含まれます。

  • 選択は後で詳細設定でいつでも更新できます。

詳細設定 [オプション]

追加のURL、除外URL、除外するCSSセレクターなどを設定するには、詳細設定ドロップダウンを選択します。

追加のURL

ウェブサイトの構造は様々です。最も関連性の高いコンテンツを同期するために、特定のサブページの追加URLを追加することをお勧めします。

例えば、上記の主要URLとしてhttps://myhelpcenter.com/helpを入力した場合、https://myhelpcenter.com/help/index.htmlのような特定のURLも追加したいかもしれません。

除外するURL

同期したくない特定のページを除外するには、URLグロブのリストを追加できます。

URLグロブとは?

グロブは、ファイルパスやURLをマッチさせるためのリテラル文字やワイルドカード文字の文字列です。グロビングは1つ以上のグロブを使ってファイルを検索する行為です。URLグロブを使うと、ほとんど同じで一部だけが異なる複数のURLをまとめて取得できます。

例えば、このURLグロブhttps://{store,docs}.example.com/**https://store.example.com/またはhttps://docs.example.com/で始まるすべてのURLにクローラーがアクセスできるようにします。https://example.com/**/*\?*foo=*

ヒント:除外したいURLにグロブパターンが合っているか不明な場合は、DigitalOceanのGlobツールを使って、適用前にサンプルURLでパターンをテストできます。(これはIntercomが管理していないサードパーティツールです。)

含めるページ要素

次に、メインページのコンテンツのみを含めるか、カスタムを選択してページ上の特定の要素を含めるか除外するかを選択できます。

除外するページ要素

特定のページ要素を除外するには、除外したいセクションや要素のCSSセレクターを使用できます。

これは無関係なページコンテンツをスキップするのに役立ちます。値はdocument.querySelectorAll()関数で受け入れられる有効なCSSセレクターでなければなりません。デフォルトで、一般的なナビゲーション要素、ヘッダー、フッター、モーダル、スクリプト、インライン画像はすでに除去しています。

クリック可能なページ要素

これは、CSSセレクターで識別されたDOM要素をウェブ同期プロセス中にクリックできるようにします。

これは、折りたたまれたセクションを展開してテキストコンテンツを取得するのに役立ちます。値はdocument.querySelectorAll()関数で受け入れられる有効なCSSセレクターでなければなりません。

例は"[aria-expanded=\"false\"]", #expand_sectionです。

複雑な条件はCSSセレクターで表現できます。CSSでは、セレクターをスペースなしで連結するとAND条件になり、例えば.button.blue.smallは3つのクラスすべてを持つ要素にマッチします。

カンマ(,)区切りはOR条件として機能します。例えば.button, .blue, h1はクラスbutton、またはクラスblue、またはh1タグのすべての要素を対象とします。

ページ要素の読み込み待ち

ページに表示が遅れる可能性があるコンテンツを対象にするには、ウェブスクレイパーがコンテンツを取得する前に待機するCSSセレクターを追加できます。

これは、デフォルトのコンテンツ読み込み認識が失敗するページに有効です。このオプションを設定するとデフォルト動作が完全に無効になり、指定したセレクターの要素が表示された場合のみページが処理されます。

注意:値はdocument.querySelectorAll()関数で受け入れられる有効なCSSセレクターでなければなりません。

プロキシ地域

特定の地域や国に設定されたプロキシを使ってウェブサイトをクロールする必要がある場合、クローラーが使用するプロキシを選択できます。

現在サポートしているプロキシは以下の通りです:

  • ローテーション:アメリカ合衆国、ドイツ、フランス、イギリス、チェコ、ハンガリー

  • 静的:

    • アメリカ合衆国 - 119.13.211.225, 161.123.167.215, 94.176.49.232, 185.223.56.90, 154.17.143.135

    • ヨーロッパ - 178.171.116.231, 206.232.77.243, 206.232.90.11, 209.20.175.180, 45.94.247.149

    • オーストラリア - 154.220.151.84, 173.254.193.121, 160.224.101.213, 160.224.100.176, 212.70.22.41

ターゲットオーディエンス

ターゲットステップでは、すべての同期ページのデフォルトオーディエンスを設定し、URLパターンに基づいて特定のオーディエンスを自動的に割り当てるルールを作成できます。手動タグ付けは不要です。

まず、このソースのコンテンツがFin AI Agentおよび/またはCopilotで有効かどうかを決定します。

次に、このソースから同期されたすべてのページに適用するデフォルトのFinオーディエンスを設定するか(デフォルトが設定されていない場合、コンテンツはEveryoneがデフォルトになります)、URLパターンに基づいて特定のオーディエンスを割り当てるルールを作成できます。

例:URLに/ukが含まれている場合、UKオーディエンスを割り当てる。ルールは同期時に評価されるため、FinとCopilotは常に適切なコンテンツを適切なオーディエンスに提供します。

各ルールは3つのURL比較演算子をサポートします:

  • で始まる — 指定されたプレフィックスで始まるURLに一致します。

  • で終わる — 指定されたサフィックスで終わるURLに一致します。

  • 含む — 指定された部分文字列を含むURLに一致します。

注意:

  • ライブプレビューでは、各ルールに一致するページ数が表示され、保存前にルールの検証ができます。これはウェブ同期ソースにサイトマップが必要です。サイトマップがない場合でもルールは適用されますが、一致のプレビューはできません。

  • ルールは作成時に自動命名されますが、名前の変更が可能です。ウェブ同期ソースごとに最大10ルールが適用されます。

  • オーディエンスルールは加算的です:コンテンツにオーディエンスを追加しますが、既存の割り当てを削除することはありません。ルールを削除しても過去のオーディエンス割り当ては元に戻りません。

同期設定を確認する

最後に同期設定を確認し、Sync website をクリックしてIntercomとのウェブサイトコンテンツの同期を開始します。


ウェブサイト同期を管理する

同期が完了すると、メール通知を受け取り、ウェブサイトはFin AI Agent > Train > Contentの同期済みソースとして表示されます。

特定のページの設定を構成する

Fin AI Agent > Train > Contentに移動し、ウェブサイトソースを選択してから、同期したページをクリックします。右側に「詳細」パネルがあり、以下が含まれます:

  • データ:コンテンツタイプ、言語、作成日、最終更新日(ソースと最後に同期された日時)を表示します。

  • Fin設定:Fin AI AgentおよびCopilotの有効/無効を切り替えます。有効にすると、コンテンツはFin AI Agentを通じて顧客に、Copilotを通じてチームメンバーに利用可能になります。

  • リンク: このウェブサイトソースの公開URL。

  • レポート:このウェブサイトソースが関与または解決したFinの会話。

  • タグ:Intercom内でコンテンツをグループ化・整理するためのカスタムタグを適用します。

  • フォルダー: Knowledge Hub内でこの公開URLが存在するフォルダー。同期されたコンテンツのフォルダーは変更できません。

注意: ウェブサイトソースは読み取り専用で、Intercom内で編集できません。編集はソース側で行う必要があります。

FinとCopilotで利用可能にする

ウェブサイトソースをFin AI Agentおよび/またはCopilotで利用可能にするには、Fin AI Agent > Train > Contentに移動し、ウェブサイトソースを選択してから同期したライブページをクリックし、Change AI Agent state > Enable for AI Agent またはChange Copilot state > Enable for Copilotを選択します。

これらの設定は個別のウェブページの「詳細」 パネルからも管理でき、下にスクロールしてFin 設定でオン/オフを切り替えられます。

  • Fin AI Agent - この設定により、公開URLがFinによる顧客対応で利用可能になります。

  • Copilot - この設定により、公開URLがCopilotパネルを通じてinbox内のチームメンバーの質問にCopilotが回答する際に利用可能になります。

特定のオーディエンスに利用可能にする

ウェブ同期作成時にURLベースのルールを使って同期コンテンツにオーディエンスを自動割り当てするか、ページ単位で手動割り当てできます。まず、ターゲットにしたいオーディエンスを作成・定義してください。

個別ページに手動でオーディエンスを割り当てるには、Fin AI Agent > Train > Contentに移動し、ウェブサイトソースを選択してから同期したライブページをクリックし、More actions > Change Fin audienceを選択します。

注意:

  • 公開URLのデフォルトオーディエンスは「Everyone」です。

  • Finは公開URLに適用されたオーディエンスを尊重し、オーディエンスルールに合致する場合のみこの記事を使って顧客の質問に回答します。

既存の同期にオーディエンスルールを追加または編集する

オーディエンスターゲティングを追加するために同期を再作成する必要はありません。Fin AI Agent > Train > Contentに移動し、ソースを選択して右上の設定ドロップダウンをクリックし、Open settingsを選択します。Targetステップに移動してURLベースのルールを追加または編集します。

注意:既存のウェブ同期にオーディエンスルールを追加すると、そのソースから既に取り込まれたすべてのコンテンツに遡及的に適用されます。新しいコンテンツだけでなく過去のコンテンツにも適用されます。

ウェブサイトをソースとして再同期または削除する

公開URLをソースとして再同期または削除したい場合は、Fin AI Agent > Train > Contentに移動し、ソースを選択して右上の設定ドロップダウンをクリックし、Re-sync またはRemove this sourceを選択します。

ヒント: ウェブサイトの再同期は通常 週次で行われ(ソースのサイズによります)、いつでも手動で再同期できます。

ウェブサイト同期設定を管理する

ウェブサイト同期の詳細設定を調整したい場合は、Fin AI Agent > Train > Contentに移動し、ソースを選択して右上の設定ドロップダウンをクリックし、Open settingsを選択します。

ウェブサイト同期履歴を見る

過去のウェブサイト同期の一覧を見て、最後に実行された日時、見つかったページ、失敗したページを確認できます。Fin AI Agent > Train > Contentに移動し、ウェブサイトソースを選択して右上の設定ドロップダウンをクリックし、View sync historyを選択します。


表の各行は過去または現在の実行を表し、ステータスでフィルタリングできます。以下の情報が含まれます:

  • 同期日

  • ステータス

  • 同期済みページ

  • 除外されたページ

  • 失敗したページ

  • 期間

  • 同期開始者

同期が失敗した場合は、ステータスにカーソルを合わせると詳細な説明が表示されます。


ウェブサイト同期のトラブルシューティング

よくある問題

ウェブサイトのコンテンツをインポートしてFinを有効にするには、public URLを入力する必要があります。これにより、そのURL以下にネストされたすべてのページが検索され、Fin AI Agentが使用できるように同期されます。

インポーターが期待したページ数を返さなかった場合、いくつかの理由があります...

指定されたURLがトップレベルドメインではありません

ウェブサイト同期は、指定したURLにアクセスし、そのURL以下にネストされたすべてのページを検索することで機能します。これらのページは、指定したURLと同じURLパターンである必要があります。

例えば、トップレベルドメインがhttps://myhelpcenter.com/homeの場合、インポートしたいすべてのページはURLに/homeプレフィックスを含む必要があります。例:https://myhelpcenter.com/home/article。含まれていない場合は、プレフィックスを削除して最も基本的なURLの幹を使用してください。例:https://myhelpcenter.com、その後再度インポートを試みてください。

URLがプライベートです

使用したいコンテンツがログインの背後にある場合、Finはアクセスやインポートができません。

ページ制限

最大100の異なるトップレベルドメインを同期でき、Finは各ソースから最大30,000ページを同期します。単一ページに非常に大量のコンテンツがある場合、同期が失敗することがあります(失敗した場合は通知されます)。

注意:
サイトがこのサイズ制限を超える場合、以下の回避策を試すことができます。

  • サイトを小さなセクションに分割します。

  • 異なるURLパスを別々に同期します。

  • これにより、同期ごとのページサイズが減り、同期失敗を防ぐのに役立ちます。

特定の地域IPに制限されたウェブサイト

Intercomのウェブサイト同期(Fin AI AgentおよびCopilotのためのpublic URL追加に使用)は、現時点で専用のカスタムユーザーエージェント文字列を使用していません。


これらのリクエストを識別または許可するには:

  • IPアドレスによる: 当社のクローラーは通常動的IPを使用します。サイトが許可リストを必要とする場合はご連絡ください。ワークスペース用に静的で地域特定のIPを有効にできます。

  • これらのリクエストはウェブサイト同期のみに使用されます。Messengerのトラフィックやエンドユーザートラッキングには影響しません。

非英語または国際サイトのページが同期されない

サイトマップに非ASCII文字(アクセント付き文字や中国語、アラビア語などのスクリプト)が含まれるURLがある場合、一部のページが期待通りに同期されないことがあります。サイトマップの検出はこれらのURLをサポートしていますが、同期プロセスの他の部分で問題が発生することがあります。手動で再同期を試みてください。ページがまだ不足している場合はサポートに連絡してください。

ウェブサイト同期エラー

コンテンツを同期すると、プロセス中に何が起こったかを示すさまざまなステータスが表示されることがあります。ウェブサイト同期ステータスを見るには、Fin AI Agent > Train > Contentに移動し、ウェブサイトソースを選択して、ステータスドロップダウンでフィルターしてください。

  • 同期中

  • ライブ

  • 失敗

  • 除外

それぞれの意味と次にできることは以下の通りです:

同期中

ページ同期はまだ進行中です。初回同期はコンテンツ量により数分から1時間以上かかることがあります。

ライブ

ページは正常に同期され、FinとCopilotで有効にできます。

注意: 成功した同期はページ上のすべてのコンテンツをスクレイピングできたとは限りません。完全なカバレッジを確認したい場合は、Finのプレビューでそのページから期待する回答を確認することをお勧めします。

除外

これらのページは同期設定で除外したため、意図的に同期されていません。再試行不可で、特に指定がない限り含めることはできません。

失敗

これらのエラーは同期が完了しなかったことを意味し、再試行前にあなた側での変更が必要な場合があります:

1. 不明なエラー

  • メッセージ: “このページにアクセスできませんでした。遅いかブロックされている可能性があります。再同期を試すか、失敗した場合はサポートに連絡してください。”

  • 意味: ページへのアクセスを妨げる何かがありましたが、原因は不明です。

2. セッションブロック / レート制限

  • メッセージ:「このウェブサイトはコンテンツへのアクセスを防いでいます。アンチクローラー設定やファイアウォールでブロックされていないか確認してください。サイトの設定を確認し、再度同期を試みてください。問題が続く場合はサポートに連絡してください。」

  • 意味:あなたのサイトは当社のクローラーを積極的にブロックまたは制限しています。

3. ネットワーク、タイムアウト、または類似のエラー

  • メッセージ:「このページにアクセスできませんでした。読み込みが遅いか、アンチクローラー設定やファイアウォールでブロックされている可能性があります。サイトの設定を確認し、再度同期を試みてください。問題が続く場合はサポートに連絡してください。」

  • 意味:ページが時間内に読み込まれなかったか、ネットワークの問題やブロックにより到達できませんでした。

4. 重複

  • メッセージ:「このページはすでに同期されている別のページと同じ内容です。バージョンは1つだけ含まれます。」

  • 意味:同一のコンテンツが他に検出されたため、1つのコピーのみ保持されます。

5. キーワードフィルタリング

  • メッセージ:「URLにcategorycollection、またはtagのようなキーワードが含まれるページは、通常ユニークなコンテンツを含まないためデフォルトで除外されます。このページを含める必要がある場合はサポートに連絡してください。」

  • 意味:これらのURLは多くの場合リストを表しており、単独のコンテンツページではありません。

6. ステータスコード400

  • メッセージ:「ページのコンテンツが見つかりません。URLが有効でページが問題なく読み込まれるか確認してください。」

  • 意味:URLが壊れているか、ウェブサイトでエラーを返している可能性があります。

7. ブロックされたURL

  • メッセージ:「このウェブサイトのdomainは同期からブロックされています。必要な場合はサポートに連絡してください。」

  • 意味:domainは意図的に同期から除外されています。


​失敗したページの同期は、ページにカーソルを合わせて三点メニューを選択し、Resync.を選ぶことで再試行できます。

注意:Website Syncは生のMarkdownファイルのインポートをサポートしていません。適切なフォーマットとタイトル検出のために、コンテンツはレンダリングされたHTMLとして提供するか、スニペット/ファイルとしてアップロードする必要があります。Markdown構造(例:#見出し)はHTMLに変換されない限り認識されません。

こちらの回答で解決しましたか?