Passer au contenu principal
GET
/
v1
/
retrieve
Récupérer le contenu de la page
curl --request GET \
  --url https://api.olostep.com/v1/retrieve \
  --header 'Authorization: Bearer <token>'
{
  "html_content": "<string>",
  "markdown_content": "<string>",
  "json_content": "<string>",
  "html_hosted_url": "<string>",
  "markdown_hosted_url": "<string>",
  "json_hosted_url": "<string>",
  "size_exceeded": true
}

Documentation Index

Fetch the complete documentation index at: https://docs.olostep.com/llms.txt

Use this file to discover all available pages before exploring further.

Autorisations

Authorization
string
header
requis

En-tête d'authentification Bearer sous la forme Bearer , où est ton jeton d'authentification.

Paramètres de requête

retrieve_id
string
requis

L'ID du contenu de la page à récupérer. Disponible dans la réponse des endpoints /v1/crawls/{crawl_id}/pages, /v1/scrapes/{scrape_id} ou /v1/batches/{batch_id}/items

formats
enum<string>[]

Tableau optionnel pour récupérer uniquement des formats spécifiques en production. Si non fourni, tous les formats seront retournés.

Options disponibles:
html,
markdown,
json

Réponse

Réponse réussie avec le contenu de la page.

html_content
string

Contenu HTML de la page, si demandé et disponible.

markdown_content
string

Contenu Markdown de la page, si demandé et disponible.

json_content
string

Contenu JSON de la page retourné par les analyseurs, si demandé et disponible.

html_hosted_url
string

URL du bucket S3 de html. Expire dans 7 jours.

markdown_hosted_url
string

URL du bucket S3 de markdown. Expire dans 7 jours.

json_hosted_url
string

URL du bucket S3 de json. Expire dans 7 jours.

size_exceeded
boolean

Si la taille des objets de contenu dépasse la limite de 6MB. Si vrai, utilise les URLs S3 hébergées pour obtenir le contenu.