Vai al contenuto principale
GET
/
v1
/
retrieve
Recupera il contenuto della pagina
curl --request GET \
  --url https://api.olostep.com/v1/retrieve \
  --header 'Authorization: Bearer <token>'
{
  "html_content": "<string>",
  "markdown_content": "<string>",
  "json_content": "<string>",
  "html_hosted_url": "<string>",
  "markdown_hosted_url": "<string>",
  "json_hosted_url": "<string>",
  "size_exceeded": true
}

Autorizzazioni

Authorization
string
header
obbligatorio

Intestazione di autenticazione Bearer della forma Bearer , dove è il tuo token di autenticazione.

Parametri della query

retrieve_id
string
obbligatorio

L'ID del contenuto della pagina da recuperare. Disponibile nella risposta degli endpoint /v1/crawls/{crawl_id}/pages, /v1/scrapes/{scrape_id} o /v1/batches/{batch_id}/items

formats
enum<string>[]

Array opzionale per recuperare solo formati specifici in produzione. Se non fornito, verranno restituiti tutti i formati.

Opzioni disponibili:
html,
markdown,
json

Risposta

Risposta positiva con il contenuto della pagina.

html_content
string

Contenuto HTML della pagina, se richiesto e disponibile.

markdown_content
string

Contenuto Markdown della pagina, se richiesto e disponibile.

json_content
string

Contenuto JSON della pagina restituito dai parser, se richiesto e disponibile.

html_hosted_url
string

URL del bucket S3 dell'html. Scade in 7 giorni.

markdown_hosted_url
string

URL del bucket S3 del markdown. Scade in 7 giorni.

json_hosted_url
string

URL del bucket S3 del json. Scade in 7 giorni.

size_exceeded
boolean

Se la dimensione degli oggetti di contenuto supera il limite di 6MB. Se vero, usa gli URL S3 ospitati per ottenere il contenuto.