/v1/crawlsエンドポイントを通じて、ウェブサイトをクロールし、すべてのページからコンテンツを取得できます。
- ウェブサイトをクロールしてすべてのサブページからコンテンツを取得(またはクロールの深さを制限)
- 特定のページをクロールするための特別なパターンを使用(例:
/blog/**) - クロールが完了したときに通知を受け取るために
webhook_urlを渡す - 特定のページのみを見つけるための検索クエリと関連性によるソート
インストール
クロールを開始する
開始URL、含める/除外するURLグロブ、max_pagesを指定します。オプション: max_depth、include_external、include_subdomain、search_query、top_n、webhook_url、timeout。
crawlオブジェクトを受け取ります。crawlオブジェクトにはidやstatusなどのプロパティがあり、クロールを追跡するのに使用できます。
クロールステータスを確認する
statusがcompletedになるまでクロールをポーリングして進行状況を追跡します。
webhook_urlを渡して、クロールが完了したときに通知を受け取ることもできます。
ページをリストする(カーソルでページネート/ストリーム)
ページを取得し、cursorとlimitを使用して反復します。クロールがin_progressまたはcompletedの間に動作します。
検索クエリ(関連性の高い上位N件に制限)
開始時にsearch_queryを使用し、オプションでsearch_queryでリストをフィルタリングします。ページごとの探索をtop_nで制限します。
コンテンツを取得する
各ページのretrieve_idを使用して、/v1/retrieveからhtml_contentやmarkdown_contentを取得します。
注意事項
- ページネーションはカーソルベースです。
cursorがなくなるまでリクエストを繰り返します。 /v1/crawls/{crawl_id}/pagesのコンテンツフィールドは廃止予定です。/v1/retrieveを使用してください。- Webhooks: クロール完了時にPOSTを受け取るために
webhook_urlを設定します。