スクレイプの作成
指定された設定でURLをスクレイプし、コンテンツを取得します。
承認
Bearer 形式のBearer認証ヘッダー。はあなたの認証トークンです。
ボディ
スクレイピングを開始するためのURL。
スクレイピングを開始する前に待つ時間(ミリ秒)。
コンテンツを取得したい形式。
html, markdown, text, json, raw_pdf, screenshot コンテンツから特定のCSSセレクタを削除するオプション。オプションで、削除したい特定のセレクタのJSON文字列化された配列を渡すこともできるよ。このオプションがデフォルトに設定されているときに削除されるCSSセレクタは ['nav','footer','script','style','noscript','svg',[role=alert],[role=banner],[role=dialog],[role=alertdialog],[role=region][aria-label*=skip i],[aria-modal=true] だよ。
default, none, array コンテンツを取得する前にページで実行するアクション。
- 待機
- クリック
- 入力を埋める
- スクロール
リクエストをロードする居住国。 サポートされている値は以下の通り: - US (United States) - CA (Canada) - IT (Italy) - IN (India) - GB (England) - JP (Japan) - MX (Mexico) - AU (Australia) - ID (Indonesia) - UA (UAE) - RU (Russia) - RANDOM Google SearchやGoogle Newsのスクレイピングのような一部の操作は、すべての国をサポートしているよ。
使用するHTMLトランスフォーマーを指定します(ある場合)。PostlightのMercury Parserライブラリを使用して、広告やその他の不要なコンテンツをスクレイピングしたコンテンツから削除します。
postlight, none スクレイピングされたコンテンツから画像を削除するオプション。デフォルトはfalse。
コンテンツから削除するクラス名のリスト。
フォーマットとしてjsonを定義するとき、このパラメータを使って使用するパーサーを指定できるよ。パーサーはウェブページから構造化されたコンテンツを抽出するのに役立つよ。Olostepには、一般的なウェブページ用のいくつかのパーサーが組み込まれていて、自分でパーサーを作成することもできるよ。
このオプションを使うと、スクレイピングしたページに存在するすべてのリンクを取得できるよ。リンクは常に絶対URLとして返されるよ。
画面サイズの設定。プリセットの寸法は、screen_typeを通じて利用可能です: desktop (1920x1080)、mobile (414x896)、またはdefault (768x1024)。
ユーザー定義のメタデータ。まだサポートされていません。
レスポンス
スクレイピング開始の詳細を含む成功したレスポンス。
スクレイプID
オブジェクトの種類。このエンドポイントでは「scrape」。
作成されたエポック
ユーザー定義のメタデータ。
スクレイピングされたURL。
このリクエストで消費されたクレジットの数。実行完了後に入力されるよ。クレジットは請求の真実の源だよ。
このリクエストのUSDでの推定コスト。実行完了後に入力されるよ。消費されたクレジットとあなたのプランレートから計算されるよ — 99% 正確だけど、credits_consumed が権威ある値だよ。