Inhalte abrufen
Inhalte von verarbeiteten Batches und Crawls-URLs abrufen.
Einführung
Mit dem Endpunkt/v1/retrieve kannst du die Inhalte von zuvor verarbeiteten Batches und Crawls abrufen. Dies ist nützlich, um auf die gesammelten Daten zuzugreifen und sie in deinen Anwendungen zu verwenden.
Anfrage
Um Inhalte abzurufen, sende eineGET-Anfrage an den Endpunkt /v1/retrieve mit den erforderlichen Parametern.
Anfrageparameter
- batchId: Die eindeutige Kennung des Batches, dessen Inhalte du abrufen möchtest.
- crawlId: Die eindeutige Kennung des Crawls, dessen Inhalte du abrufen möchtest.
Beispielanfrage
Antwort
Bei einer erfolgreichen Anfrage erhältst du eine Antwort mit dem Inhalt der angegebenen Batches und Crawls.Antwortstruktur
- status: Der Status der Anfrage (z.B.
success). - data: Ein Array mit den abgerufenen Inhalten.
- message: Eine optionale Nachricht mit zusätzlichen Informationen.
Beispielantwort
Fehlerbehandlung
Sollte ein Fehler auftreten, enthält die Antwort Informationen über die Art des Fehlers.Beispiel für eine Fehlermeldung
batchId und crawlId übermittelst, um solche Fehler zu vermeiden.Autorisierungen
Bearer-Authentifizierungsheader in der Form Bearer , wobei dein Authentifizierungstoken ist.
Abfrageparameter
Die ID des Seiteninhalts, der abgerufen werden soll. Verfügbar in der Antwort der Endpunkte /v1/crawls/{crawl_id}/pages, /v1/scrapes/{scrape_id} oder /v1/batches/{batch_id}/items
Optionale Liste, um nur bestimmte Formate in der Produktion abzurufen. Wenn nicht angegeben, werden alle Formate zurückgegeben.
html, markdown, json Antwort
Erfolgreiche Antwort mit Seiteninhalt.
HTML-Inhalt der Seite, falls angefordert und verfügbar.
Markdown-Inhalt der Seite, falls angefordert und verfügbar.
JSON-Inhalt der Seite, der von Parsern zurückgegeben wird, falls angefordert und verfügbar.
S3-Bucket-URL von html. Läuft in 7 Tagen ab.
S3-Bucket-URL von markdown. Läuft in 7 Tagen ab.
S3-Bucket-URL von json. Läuft in 7 Tagen ab.
Wenn die Größe der Inhaltsobjekte das 6MB-Limit überschreitet. Wenn wahr, verwende gehostete S3-URLs, um den Inhalt zu erhalten.