/v1/crawls kannst du eine Website crawlen und den Inhalt von allen Seiten abrufen.
- Eine Website crawlen und den Inhalt von allen Unterseiten abrufen (oder die Tiefe des Crawls begrenzen)
- Spezielle Muster verwenden, um bestimmte Seiten zu crawlen (z.B.
/blog/**) - Eine
webhook_urlübergeben, um benachrichtigt zu werden, wenn der Crawl abgeschlossen ist - Suchanfrage, um nur bestimmte Seiten zu finden und nach Relevanz zu sortieren
Installation
Starte einen Crawl
Gib die Start-URL an, schließe URL-Globs ein/aus undmax_pages. Optional: max_depth, include_external, include_subdomain, search_query, top_n, webhook_url, timeout.
crawl-Objekt. Das crawl-Objekt hat einige Eigenschaften wie id und status, die du verwenden kannst, um den Crawl zu verfolgen.
Crawl-Status überprüfen
Den Crawl abfragen, um den Fortschritt zu verfolgen, bisstatus completed ist.
webhook_url übergeben, wenn du den Crawl startest, um benachrichtigt zu werden, wenn der Crawl abgeschlossen ist.
Seiten auflisten (mit Cursor paginieren/streamen)
Seiten abrufen und mitcursor und limit iterieren. Funktioniert, während der Crawl in_progress oder completed ist.
Suchanfrage (auf die N relevantesten begrenzen)
Verwendesearch_query beim Start und filtere optional die Liste mit search_query. Begrenze die Erkundung pro Seite mit top_n.
Inhalt abrufen
Verwende dieretrieve_id jeder Seite mit /v1/retrieve, um html_content und/oder markdown_content abzurufen.
Hinweise
- Die Paginierung basiert auf einem Cursor; wiederhole Anfragen, bis
cursornicht mehr vorhanden ist. - Inhaltsfelder auf
/v1/crawls/{crawl_id}/pagessind veraltet; verwende stattdessen/v1/retrieve. - Webhooks: Setze
webhook_url, um eine POST-Benachrichtigung zu erhalten, wenn der Crawl abgeschlossen ist.