跳转到主要内容
GET
/
v1
/
retrieve
获取页面内容
curl --request GET \
  --url https://api.olostep.com/v1/retrieve \
  --header 'Authorization: Bearer <token>'
{
  "html_content": "<string>",
  "markdown_content": "<string>",
  "json_content": "<string>",
  "html_hosted_url": "<string>",
  "markdown_hosted_url": "<string>",
  "json_hosted_url": "<string>",
  "size_exceeded": true
}

授权

Authorization
string
header
必填

Bearer 认证头的格式为 Bearer ,其中 是你的认证令牌。

查询参数

retrieve_id
string
必填

要获取的页面内容的 ID。可在 /v1/crawls/{crawl_id}/pages/v1/scrapes/{scrape_id}/v1/batches/{batch_id}/items 端点的响应中找到。

formats
enum<string>[]

可选数组,用于在生产中仅获取特定格式。如果未提供,将返回所有格式。

可用选项:
html,
markdown,
json

响应

成功响应,包含页面内容。

html_content
string

页面 HTML 内容(如果请求且可用)。

markdown_content
string

页面 Markdown 内容(如果请求且可用)。

json_content
string

从解析器返回的页面 JSON 内容(如果请求且可用)。

html_hosted_url
string

HTML 的 S3 存储桶 URL。7 天后过期。

markdown_hosted_url
string

Markdown 的 S3 存储桶 URL。7 天后过期。

json_hosted_url
string

JSON 的 S3 存储桶 URL。7 天后过期。

size_exceeded
boolean

如果内容对象的大小超过 6MB 限制。如果为 true,请使用托管的 S3 URL 获取内容。