Saltar al contenido principal
GET
/
v1
/
retrieve
Recuperar contenido de la página
curl --request GET \
  --url https://api.olostep.com/v1/retrieve \
  --header 'Authorization: Bearer <token>'
{
  "html_content": "<string>",
  "markdown_content": "<string>",
  "json_content": "<string>",
  "html_hosted_url": "<string>",
  "markdown_hosted_url": "<string>",
  "json_hosted_url": "<string>",
  "size_exceeded": true
}

Autorizaciones

Authorization
string
header
requerido

Encabezado de autenticación Bearer del formato Bearer , donde es tu token de autenticación.

Parámetros de consulta

retrieve_id
string
requerido

El ID del contenido de la página a recuperar. Disponible en la respuesta de los endpoints /v1/crawls/{crawl_id}/pages, /v1/scrapes/{scrape_id} o /v1/batches/{batch_id}/items

formats
enum<string>[]

Array opcional para recuperar solo formatos específicos en producción. Si no se proporciona, se devolverán todos los formatos.

Opciones disponibles:
html,
markdown,
json

Respuesta

Respuesta exitosa con el contenido de la página.

html_content
string

Contenido HTML de la página, si se solicita y está disponible.

markdown_content
string

Contenido Markdown de la página, si se solicita y está disponible.

json_content
string

Contenido JSON de la página devuelto por los analizadores, si se solicita y está disponible.

html_hosted_url
string

URL del bucket S3 de html. Expira en 7 días.

markdown_hosted_url
string

URL del bucket S3 de markdown. Expira en 7 días.

json_hosted_url
string

URL del bucket S3 de json. Expira en 7 días.

size_exceeded
boolean

Si el tamaño de los objetos de contenido excede el límite de 6MB. Si es verdadero, usa las URLs de S3 alojadas para obtener el contenido.