Inhalte abrufen

{ "html_content": "<string>", "markdown_content": "<string>", "json_content": "<string>", "html_hosted_url": "<string>", "markdown_hosted_url": "<string>", "json_hosted_url": "<string>", "size_exceeded": true }

Anfrage

Um Inhalte abzurufen, sende eine GET-Anfrage an den Endpunkt /v1/retrieve mit den erforderlichen Parametern.

Anfrageparameter

batchId: Die eindeutige Kennung des Batches, dessen Inhalte du abrufen möchtest.

crawlId: Die eindeutige Kennung des Crawls, dessen Inhalte du abrufen möchtest.

Beispielanfrage

GET /v1/retrieve?batchId=12345&crawlId=67890 HTTP/1.1
Host: api.olostep.com
Authorization: Bearer your-access-token

Antwort

Bei einer erfolgreichen Anfrage erhältst du eine Antwort mit dem Inhalt der angegebenen Batches und Crawls.

Antwortstruktur

status: Der Status der Anfrage (z.B. success).

data: Ein Array mit den abgerufenen Inhalten.

message: Eine optionale Nachricht mit zusätzlichen Informationen.

Beispielantwort

{
  "status": "success",
  "data": [
    {
      "url": "http://example.com",
      "content": "Beispielinhalt"
    }
  ],
  "message": "Inhalte erfolgreich abgerufen."
}

Fehlerbehandlung

Sollte ein Fehler auftreten, enthält die Antwort Informationen über die Art des Fehlers.

Beispiel für eine Fehlermeldung

{
  "status": "error",
  "message": "Ungültige Batch- oder Crawl-ID."
}

Stelle sicher, dass du gültige batchId und crawlId übermittelst, um solche Fehler zu vermeiden.

Autorisierungen

Authorization

string

header

erforderlich

Bearer-Authentifizierungsheader in der Form Bearer , wobei dein Authentifizierungstoken ist.

Abfrageparameter

retrieve_id

string

erforderlich

Die ID des Seiteninhalts, der abgerufen werden soll. Verfügbar in der Antwort der Endpunkte /v1/crawls/{crawl_id}/pages, /v1/scrapes/{scrape_id} oder /v1/batches/{batch_id}/items

formats

enum<string>[]

Optionale Liste, um nur bestimmte Formate in der Produktion abzurufen. Wenn nicht angegeben, werden alle Formate zurückgegeben.

Verfügbare Optionen:

html,

markdown,

json

Antwort

Erfolgreiche Antwort mit Seiteninhalt.

html_content

string

HTML-Inhalt der Seite, falls angefordert und verfügbar.

markdown_content

string

Markdown-Inhalt der Seite, falls angefordert und verfügbar.

json_content

string

JSON-Inhalt der Seite, der von Parsern zurückgegeben wird, falls angefordert und verfügbar.

html_hosted_url

string

S3-Bucket-URL von html. Läuft in 7 Tagen ab.

markdown_hosted_url

string

S3-Bucket-URL von markdown. Läuft in 7 Tagen ab.

json_hosted_url

string

S3-Bucket-URL von json. Läuft in 7 Tagen ab.

size_exceeded

boolean

Wenn die Größe der Inhaltsobjekte das 6MB-Limit überschreitet. Wenn wahr, verwende gehostete S3-URLs, um den Inhalt zu erhalten.

Allgemein

Abschürfungen

Chargen

Durchläufe

Karten

Antworten

Suche

Dateien

Zeitpläne

Monitore

Abrufen

Einführung

Anfrage

Anfrageparameter

Beispielanfrage

Antwort

Antwortstruktur

Beispielantwort

Fehlerbehandlung

Beispiel für eine Fehlermeldung

Autorisierungen

Abfrageparameter

Antwort

Allgemein

Abschürfungen

Chargen

Durchläufe

Karten

Antworten

Suche

Dateien

Zeitpläne

Monitore

Abrufen

Documentation Index

​Einführung

​Anfrage

​Anfrageparameter

​Beispielanfrage

​Antwort

​Antwortstruktur

​Beispielantwort

​Fehlerbehandlung

​Beispiel für eine Fehlermeldung

Autorisierungen

Abfrageparameter

Antwort

Einführung

Anfrage

Anfrageparameter

Beispielanfrage

Antwort

Antwortstruktur

Beispielantwort

Fehlerbehandlung

Beispiel für eine Fehlermeldung