新しいクロールを開始します。進行状況を追跡するための id を受け取ります。サイト、深さ、ページのパラメータに応じて、この操作には1〜10分かかる場合があります。
Bearer認証ヘッダーの形式はBearer
クローラーの開始地点。
クロールするページの最大数。ウェブサイト全体をクロールするようなほとんどのユースケースに推奨されます。
glob構文を使用してクローラーに含めるURLパスパターン。 デフォルトは/**で、すべてのURLを含みます。特定のセクションをクロールするには、/blog/**のようなパターンを使用します(例:ブログページのみ)、/products/*.htmlは商品ページ用、または異なるセクションのために複数のパターンを使用します。*(任意の文字)や**(再帰的なマッチング)などの標準的なglob機能をサポートしています。
除外するglobパターンのURLパス名。例:/careers/**。除外されたURLは、含まれるURLよりも優先されます。
クロールの最大深度。n次のリンクまでのみ抽出するのに便利です。
一次外部リンクをクロールします。
ウェブサイトのサブドメインを含めます。デフォルトはfalseです。
特定のリンクを見つけるためのオプションの検索クエリで、結果を関連性でソートします。
検索クエリに従って、各ページで最も関連性の高いリンクのトップNのみをクロールするためのオプションの数。
指定されたタイムアウトから約10秒余分にかかることがありますが、n秒後にクロールを終了し、それまでに完了したページを取得します。
robots.txtルールを尊重するかどうか。falseに設定すると、クローラーはrobots.txtの禁止指令に関係なくウェブサイトをスクレイプします。デフォルトはtrueです。
Olostep APIから各個別ページのスクレイプリクエストを制御します。すべてのフィールドはオプションです。
クロールが正常に開始されました。
クロールID
オブジェクトの種類。このエンドポイントでは "crawl"。
in_progress または completed
エポックでの作成時間
日付での作成時間
クロールプロセスの現在の深さ。
クロールされたページの数