メインコンテンツへスキップ
GET
/
v1
/
retrieve
ページコンテンツを取得
curl --request GET \
  --url https://api.olostep.com/v1/retrieve \
  --header 'Authorization: Bearer <token>'
{
  "html_content": "<string>",
  "markdown_content": "<string>",
  "json_content": "<string>",
  "html_hosted_url": "<string>",
  "markdown_hosted_url": "<string>",
  "json_hosted_url": "<string>",
  "size_exceeded": true
}

承認

Authorization
string
header
必須

Bearer認証ヘッダーの形式はBearer で、はあなたの認証トークンです。

クエリパラメータ

retrieve_id
string
必須

取得するページコンテンツのID。/v1/crawls/{crawl_id}/pages/v1/scrapes/{scrape_id}、または/v1/batches/{batch_id}/itemsエンドポイントのレスポンスで利用可能

formats
enum<string>[]

本番環境で特定のフォーマットのみを取得するためのオプションの配列。指定しない場合、すべてのフォーマットが返されます。

利用可能なオプション:
html,
markdown,
json

レスポンス

ページコンテンツを含む成功したレスポンス。

html_content
string

リクエストされ、利用可能な場合のページのHTMLコンテンツ。

markdown_content
string

リクエストされ、利用可能な場合のページのMarkdownコンテンツ。

json_content
string

リクエストされ、利用可能な場合のパーサーから返されたページのJSONコンテンツ。

html_hosted_url
string

HTMLのS3バケットURL。7日間有効。

markdown_hosted_url
string

MarkdownのS3バケットURL。7日間有効。

json_hosted_url
string

JSONのS3バケットURL。7日間有効。

size_exceeded
boolean

コンテンツオブジェクトのサイズが6MBの制限を超える場合。trueの場合、ホストされたS3のURLを使ってコンテンツを取得してください。