OlostepのDocumentation Index
Fetch the complete documentation index at: https://docs.olostep.com/llms.txt
Use this file to discover all available pages before exploring further.
/v1/crawlsエンドポイントを使用して、ウェブサイトをクロールし、すべてのページのコンテンツを取得できます。
- ウェブサイトをクロールし、すべてのサブページのコンテンツを取得(またはクロールの深さを制限)
- 特定のページをクロールするための特別なパターンを使用(例:
/blog/**) - クロール完了時に通知を受け取るために
webhook_urlを渡す - 特定のページを見つけるための検索クエリと関連性でソート
インストール
クロールを開始
開始URL、含める/除外するURLグロブ、max_pagesを指定します。オプション:max_depth、include_external、include_subdomain、search_query、top_n、webhook_url、timeout。
crawlオブジェクトを受け取ります。crawlオブジェクトには、idやstatusなどのプロパティがあり、これを使用してクロールを追跡できます。
クロールのステータスを確認
statusがcompletedになるまでクロールをポーリングして進捗を追跡します。
webhook_urlを渡して、クロールが完了したときに通知を受け取ることができます。
ページを一覧表示(カーソルでページネート/ストリーム)
cursorとlimitを使用してページを取得し、繰り返し処理します。クロールがin_progressまたはcompletedの間に動作します。
検索クエリ(関連性の高い上位N件に制限)
開始時にsearch_queryを使用し、オプションでリストをsearch_queryでフィルタリングします。ページごとの探索をtop_nで制限します。
コンテンツを取得
各ページのretrieve_idを使用して、/v1/retrieveからhtml_contentおよび/またはmarkdown_contentを取得します。
注意事項
- ページネーションはカーソルベースです。
cursorがなくなるまでリクエストを繰り返します。 /v1/crawls/{crawl_id}/pagesのコンテンツフィールドは非推奨です。/v1/retrieveを使用してください。- Webhooks: クロール完了時にPOSTを受け取るために
webhook_urlを設定します。