メインコンテンツへスキップ
POST
/
v1
/
scrapes
ウェブページのスクレイピングを開始する
curl --request POST \
  --url https://api.olostep.com/v1/scrapes \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url_to_scrape": "<string>",
  "wait_before_scraping": 123,
  "formats": [
    "html"
  ],
  "remove_css_selectors": "default",
  "actions": [
    {
      "type": "wait",
      "milliseconds": 1
    }
  ],
  "country": "<string>",
  "transformer": "postlight",
  "remove_images": false,
  "remove_class_names": [
    "<string>"
  ],
  "llm_extract": {
    "schema": {}
  },
  "links_on_page": {
    "absolute_links": true,
    "query_to_order_links_by": "<string>",
    "include_links": [
      "<string>"
    ],
    "exclude_links": [
      "<string>"
    ]
  },
  "screen_size": {
    "screen_type": "default",
    "screen_width": 123,
    "screen_height": 123
  },
  "screenshot": {
    "full_page": true
  },
  "metadata": {}
}
'
{
  "id": "<string>",
  "object": "<string>",
  "created": 123,
  "metadata": {},
  "url_to_scrape": "<string>",
  "result": {
    "html_content": "<string>",
    "markdown_content": "<string>",
    "text_content": "<string>",
    "json_content": "<string>",
    "screenshot_hosted_url": "<string>",
    "html_hosted_url": "<string>",
    "markdown_hosted_url": "<string>",
    "text_hosted_url": "<string>",
    "links_on_page": [
      "<string>"
    ],
    "page_metadata": {
      "status_code": 123,
      "title": "<string>"
    }
  }
}

承認

Authorization
string
header
必須

Bearer認証ヘッダーの形式はBearer で、はあなたの認証トークンです。

ボディ

application/json
url_to_scrape
string<uri>
必須

スクレイピングを開始するためのURL。

wait_before_scraping
integer

スクレイピングを開始する前に待つ時間(ミリ秒)。

formats
enum<string>[]

コンテンツを取得したい形式。

利用可能なオプション:
html,
markdown,
text,
json,
raw_pdf,
screenshot
remove_css_selectors
enum<string>

コンテンツから特定のCSSセレクタを削除するオプション。オプションで、削除したい特定のセレクタのJSON文字列化された配列を渡すこともできます。このオプションがデフォルトに設定されている場合に削除されるCSSセレクタは ['nav','footer','script','style','noscript','svg',[role=alert],[role=banner],[role=dialog],[role=alertdialog],[role=region][aria-label*=skip i],[aria-modal=true]] です。

利用可能なオプション:
default,
none,
array
actions
(待機 · object | クリック · object | 入力を埋める · object | スクロール · object)[]

コンテンツを取得する前にページで実行するアクション。

country
string

リクエストをロードする居住国。 サポートされている値は次のとおりです: - US (United States) - CA (Canada) - IT (Italy) - IN (India) - GB (England) - JP (Japan) - MX (Mexico) - AU (Australia) - ID (Indonesia) - UA (UAE) - RU (Russia) - RANDOM Google SearchやGoogle Newsのスクレイピングのような一部の操作は、すべての国をサポートしています。

transformer
enum<string>

使用するHTMLトランスフォーマーを指定します(ある場合)。PostlightのMercury Parserライブラリを使用して、広告やその他の不要なコンテンツをスクレイピングしたコンテンツから削除します。

利用可能なオプション:
postlight,
none
remove_images
boolean
デフォルト:false

スクレイピングされたコンテンツから画像を削除するオプション。デフォルトはfalseです。

remove_class_names
string[]

コンテンツから削除するクラス名のリスト。

parser
object

フォーマットとしてjsonを定義する場合、このパラメータを使用して使用するパーサーを指定できます。パーサーは、ウェブページから構造化されたコンテンツを抽出するのに役立ちます。Olostepには、一般的なウェブページ用のいくつかのパーサーが組み込まれており、自分自身でパーサーを作成することもできます。

llm_extract
object

このオプションを使用すると、スクレイピングしたページに存在するすべてのリンクを取得できます。

screen_size
object

画面サイズの設定。プリセットの寸法は、screen_typeを通じて利用可能:desktop (1920x1080)、mobile (414x896)、またはdefault (768x1024)。

screenshot
object
metadata
object

ユーザー定義のメタデータ。まだサポートされていません。

レスポンス

スクレイピング開始の詳細を含む成功したレスポンス。

id
string

スクレイプID

object
string

オブジェクトの種類。このエンドポイントでは「scrape」。

created
number

作成されたエポック

metadata
object

ユーザー定義のメタデータ。

url_to_scrape
string

スクレイピングされたURL。

result
object