クロールの作成
新しいクロールを開始します。進行状況を追跡するための id を受け取ります。操作はサイト、深さ、ページのパラメータに応じて1〜10分かかる場合があります。
承認
Bearer 形式のBearer認証ヘッダー。はあなたの認証トークンです。
ボディ
クローラーの開始地点。
クロールするページの最大数。ウェブサイト全体をクロールするようなほとんどのユースケースに推奨されます。
glob構文を使用してクローラーに含めるURLパスパターン。 デフォルトは/**で、すべてのURLを含みます。特定のセクションをクロールするには、/blog/**のようなパターンを使用します(例:ブログページのみ)、/products/*.htmlは商品ページ用、または異なるセクションのために複数のパターンを使用します。*(任意の文字)や**(再帰的なマッチング)などの標準的なglob機能をサポートしています。
除外するglobパターンのURLパス名。例:/careers/**。除外されたURLは含まれるURLより優先されます。
クロールの最大深度。n次のリンクまでのみ抽出するのに便利です。
一次外部リンクをクロールします。
ウェブサイトのサブドメインを含めます。デフォルトはfalseです。
特定のリンクを見つけるためのオプションの検索クエリで、結果を関連性でソートします。
検索クエリに従って、各ページで最も関連性の高いリンクのトップNのみをクロールするためのオプションの数。
n秒後にクロールを終了し、それまでに完了したページを取得します。指定されたタイムアウトから約10秒余分にかかることがあります。
robots.txtルールを尊重するかどうか。falseに設定すると、クローラーはrobots.txtの禁止指令に関係なくウェブサイトをスクレイプします。デフォルトはtrueです。
Olostep APIから各個別ページのスクレイプリクエストを制御します。すべてのフィールドはオプションです。
レスポンス
クロールが正常に開始されました。
クロールID
オブジェクトの種類。このエンドポイントでは "crawl"。
in_progress または completed
エポックでの作成時間
日付での作成時間
クロールプロセスの現在の深さ。
クロールされたページの数
このリクエストで消費されたクレジットの数。実行完了後に入力されるよ。クレジットは請求の真実の源だよ。
このリクエストのUSDでの推定コスト。実行完了後に入力されるよ。消費されたクレジットとあなたのプランレートから計算されるよ — 99% 正確だけど、credits_consumed が権威ある値だよ。