Zum Hauptinhalt springen
GET
/
v1
/
retrieve
Seiteninhalt abrufen
curl --request GET \
  --url https://api.olostep.com/v1/retrieve \
  --header 'Authorization: Bearer <token>'
{
  "html_content": "<string>",
  "markdown_content": "<string>",
  "json_content": "<string>",
  "html_hosted_url": "<string>",
  "markdown_hosted_url": "<string>",
  "json_hosted_url": "<string>",
  "size_exceeded": true
}

Documentation Index

Fetch the complete documentation index at: https://docs.olostep.com/llms.txt

Use this file to discover all available pages before exploring further.

Einführung

Mit dem Endpunkt /v1/retrieve kannst du die Inhalte von zuvor verarbeiteten Batches und Crawls abrufen. Dies ist nützlich, um auf die gesammelten Daten zuzugreifen und sie in deinen Anwendungen zu verwenden.

Anfrage

Um Inhalte abzurufen, sende eine GET-Anfrage an den Endpunkt /v1/retrieve mit den erforderlichen Parametern.

Anfrageparameter

  • batchId: Die eindeutige Kennung des Batches, dessen Inhalte du abrufen möchtest.
  • crawlId: Die eindeutige Kennung des Crawls, dessen Inhalte du abrufen möchtest.

Beispielanfrage

GET /v1/retrieve?batchId=12345&crawlId=67890 HTTP/1.1
Host: api.olostep.com
Authorization: Bearer your-access-token

Antwort

Bei einer erfolgreichen Anfrage erhältst du eine Antwort mit dem Inhalt der angegebenen Batches und Crawls.

Antwortstruktur

  • status: Der Status der Anfrage (z.B. success).
  • data: Ein Array mit den abgerufenen Inhalten.
  • message: Eine optionale Nachricht mit zusätzlichen Informationen.

Beispielantwort

{
  "status": "success",
  "data": [
    {
      "url": "http://example.com",
      "content": "Beispielinhalt"
    }
  ],
  "message": "Inhalte erfolgreich abgerufen."
}

Fehlerbehandlung

Sollte ein Fehler auftreten, enthält die Antwort Informationen über die Art des Fehlers.

Beispiel für eine Fehlermeldung

{
  "status": "error",
  "message": "Ungültige Batch- oder Crawl-ID."
}
Stelle sicher, dass du gültige batchId und crawlId übermittelst, um solche Fehler zu vermeiden.

Autorisierungen

Authorization
string
header
erforderlich

Bearer-Authentifizierungsheader in der Form Bearer , wobei dein Authentifizierungstoken ist.

Abfrageparameter

retrieve_id
string
erforderlich

Die ID des Seiteninhalts, der abgerufen werden soll. Verfügbar in der Antwort der Endpunkte /v1/crawls/{crawl_id}/pages, /v1/scrapes/{scrape_id} oder /v1/batches/{batch_id}/items

formats
enum<string>[]

Optionale Liste, um nur bestimmte Formate in der Produktion abzurufen. Wenn nicht angegeben, werden alle Formate zurückgegeben.

Verfügbare Optionen:
html,
markdown,
json

Antwort

Erfolgreiche Antwort mit Seiteninhalt.

html_content
string

HTML-Inhalt der Seite, falls angefordert und verfügbar.

markdown_content
string

Markdown-Inhalt der Seite, falls angefordert und verfügbar.

json_content
string

JSON-Inhalt der Seite, der von Parsern zurückgegeben wird, falls angefordert und verfügbar.

html_hosted_url
string

S3-Bucket-URL von html. Läuft in 7 Tagen ab.

markdown_hosted_url
string

S3-Bucket-URL von markdown. Läuft in 7 Tagen ab.

json_hosted_url
string

S3-Bucket-URL von json. Läuft in 7 Tagen ab.

size_exceeded
boolean

Wenn die Größe der Inhaltsobjekte das 6MB-Limit überschreitet. Wenn wahr, verwende gehostete S3-URLs, um den Inhalt zu erhalten.