Zum Hauptinhalt springen
GET
/
v1
/
retrieve
Seiteninhalt abrufen
curl --request GET \
  --url https://api.olostep.com/v1/retrieve \
  --header 'Authorization: Bearer <token>'
{
  "html_content": "<string>",
  "markdown_content": "<string>",
  "json_content": "<string>",
  "html_hosted_url": "<string>",
  "markdown_hosted_url": "<string>",
  "json_hosted_url": "<string>",
  "size_exceeded": true
}

Autorisierungen

Authorization
string
header
erforderlich

Bearer-Authentifizierungsheader in der Form Bearer , wobei dein Authentifizierungstoken ist.

Abfrageparameter

retrieve_id
string
erforderlich

Die ID des Seiteninhalts, der abgerufen werden soll. Verfügbar in der Antwort der Endpunkte /v1/crawls/{crawl_id}/pages, /v1/scrapes/{scrape_id} oder /v1/batches/{batch_id}/items

formats
enum<string>[]

Optionale Liste, um nur bestimmte Formate in der Produktion abzurufen. Wenn nicht angegeben, werden alle Formate zurückgegeben.

Verfügbare Optionen:
html,
markdown,
json

Antwort

Erfolgreiche Antwort mit Seiteninhalt.

html_content
string

HTML-Inhalt der Seite, falls angefordert und verfügbar.

markdown_content
string

Markdown-Inhalt der Seite, falls angefordert und verfügbar.

json_content
string

JSON-Inhalt der Seite, der von Parsern zurückgegeben wird, falls angefordert und verfügbar.

html_hosted_url
string

S3-Bucket-URL von html. Läuft in 7 Tagen ab.

markdown_hosted_url
string

S3-Bucket-URL von markdown. Läuft in 7 Tagen ab.

json_hosted_url
string

S3-Bucket-URL von json. Läuft in 7 Tagen ab.

size_exceeded
boolean

Wenn die Größe der Inhaltsobjekte das 6MB-Limit überschreitet. Wenn wahr, verwende gehostete S3-URLs, um den Inhalt zu erhalten.