Startet einen neuen Crawl. Du erhältst eine id, um den Fortschritt zu verfolgen. Der Vorgang kann je nach Website, Tiefe und Seitenparametern 1-10 Minuten dauern.
Bearer-Authentifizierungsheader in der Form Bearer
Der Startpunkt des Crawls.
Maximale Anzahl von Seiten, die gecrawlt werden sollen. Empfohlen für die meisten Anwendungsfälle wie das Crawlen einer gesamten Website.
URL-Pfadmuster, die im Crawl mit der Glob-Syntax eingeschlossen werden sollen. Standardmäßig /**, was alle URLs einschließt. Verwende Muster wie /blog/**, um bestimmte Abschnitte zu crawlen (z.B. nur Blog-Seiten), /products/*.html für Produktseiten oder mehrere Muster für verschiedene Abschnitte. Unterstützt Standard-Glob-Funktionen wie * (beliebige Zeichen) und ** (rekursives Matching).
URL-Pfadnamen im Glob-Muster, die ausgeschlossen werden sollen. Zum Beispiel: /careers/**. Ausgeschlossene URLs haben Vorrang vor eingeschlossenen URLs.
Maximale Tiefe des Crawls. Nützlich, um nur bis zu einem n-Grad von Links zu extrahieren.
Crawl von externen Links ersten Grades.
Einbeziehen von Subdomains der Website. Standardmäßig false.
Eine optionale Suchanfrage, um spezifische Links zu finden und die Ergebnisse nach Relevanz zu sortieren.
Eine optionale Zahl, um nur die N relevantesten Links auf jeder Seite gemäß der Suchanfrage zu crawlen.
HTTPS-URL, um eine POST-Anfrage zu erhalten, wenn der Crawl abgeschlossen ist. Muss eine öffentlich zugängliche URL mit dem Protokoll http:// oder https:// sein. Kann nicht auf localhost oder private IP-Adressen verweisen. Siehe Webhooks für das Payload-Format und das Wiederholungsverhalten.
Beende den Crawl nach n Sekunden mit den bis dahin abgeschlossenen Seiten. Kann ~10s extra von der angegebenen Timeout-Zeit in Anspruch nehmen.
Ob die Regeln von robots.txt beachtet werden sollen. Wenn auf false gesetzt, wird der Crawler die Website unabhängig von den Disallow-Direktiven in robots.txt scrapen. Standardmäßig true.
Steuert, was jede einzelne Seitenabfrage von der Olostep-API anfordert. Alle Felder sind optional.
Crawl erfolgreich gestartet.
Crawl-ID
Die Art des Objekts. "crawl" für diesen Endpunkt.
in_progress oder completed
Erstellungszeit im Epoch-Format
Erstellungszeit im Datumsformat
Die aktuelle Tiefe des Crawl-Prozesses.
Anzahl der gecrawlten Seiten