/v1/crawlsエンドポイントを通じて、ウェブサイトをクロールし、すべてのページからコンテンツを取得できます。
- ウェブサイトをクロールし、すべてのサブページからコンテンツを取得(またはクロールの深さを制限)
- 特定のページをクロールするための特別なパターンを使用(例:
/blog/**) - クロールが完了したときに通知を受け取るために
webhook_urlを渡す - 特定のページを見つけるための検索クエリと関連性でソート
インストール
クロールを開始する
開始URL、含める/除外するURLのグロブ、max_pagesを指定します。オプション:max_depth、include_external、include_subdomain、search_query、top_n、webhook_url、timeout。
crawlオブジェクトを受け取ります。crawlオブジェクトには、idやstatusなどのプロパティがあり、クロールを追跡するのに使用できます。
クロールのステータスを確認する
クロールをポーリングして進行状況を追跡し、statusがcompletedになるまで確認します。
webhook_urlを渡して、クロールが完了したときに通知を受け取ることもできます。
ページのリスト(カーソルでページネーション/ストリーム)
cursorとlimitを使用してページを取得し、反復します。クロールがin_progressまたはcompletedの間に機能します。
検索クエリ(関連性の高いトップNに制限)
開始時にsearch_queryを使用し、オプションでsearch_queryでリストをフィルタリングします。ページごとの探索をtop_nで制限します。
コンテンツの取得
各ページのretrieve_idを使用して、/v1/retrieveからhtml_contentやmarkdown_contentを取得します。
注意事項
- ページネーションはカーソルベースです。
cursorがなくなるまでリクエストを繰り返します。 /v1/crawls/{crawl_id}/pagesのコンテンツフィールドは非推奨です。/v1/retrieveを使用してください。- Webhooks: クロールが完了したときにPOSTを受け取るために
webhook_urlを設定します。