Crawl erstellen
Startet einen neuen Crawl. Du erhältst eine id, um den Fortschritt zu verfolgen. Der Vorgang kann je nach Website, Tiefe und Seitenparametern 1-10 Minuten dauern.
Autorisierungen
Bearer-Authentifizierungsheader in der Form Bearer , wobei dein Authentifizierungstoken ist.
Body
Der Startpunkt des Crawls.
Maximale Anzahl von Seiten, die gecrawlt werden sollen. Empfohlen für die meisten Anwendungsfälle wie das Crawlen einer gesamten Website.
URL-Pfadmuster, die im Crawl mit Glob-Syntax eingeschlossen werden sollen. Standardmäßig /**, was alle URLs einschließt. Verwende Muster wie /blog/**, um spezifische Abschnitte zu crawlen (z.B. nur Blog-Seiten), /products/*.html für Produktseiten oder mehrere Muster für verschiedene Abschnitte. Unterstützt Standard-Glob-Funktionen wie * (beliebige Zeichen) und ** (rekursive Übereinstimmung).
URL-Pfadnamen im Glob-Muster, die ausgeschlossen werden sollen. Zum Beispiel: /careers/**. Ausgeschlossene URLs haben Vorrang vor eingeschlossenen URLs.
Maximale Tiefe des Crawls. Nützlich, um nur bis zu n-Grad von Links zu extrahieren.
Crawl externe Links ersten Grades.
Subdomains der Website einbeziehen. Standardmäßig false.
Eine optionale Suchanfrage, um spezifische Links zu finden und die Ergebnisse auch nach Relevanz zu sortieren.
Eine optionale Zahl, um nur die N relevantesten Links auf jeder Seite gemäß der Suchanfrage zu crawlen.
HTTPS-URL, um eine POST-Anfrage zu erhalten, wenn der Crawl abgeschlossen ist. Muss eine öffentlich zugängliche URL mit http:// oder https://-Protokoll sein. Kann nicht auf localhost oder private IP-Adressen verweisen. Siehe Webhooks für das Payload-Format und das Wiederholungsverhalten.
Beende den Crawl nach n Sekunden mit den bis dahin abgeschlossenen Seiten. Kann ~10s extra von der angegebenen Timeout-Zeit in Anspruch nehmen.
Ob die Regeln von robots.txt beachtet werden sollen. Wenn auf false gesetzt, wird der Crawler die Website unabhängig von den Disallow-Direktiven in robots.txt scrapen. Standardmäßig true.
Steuert, was jede einzelne Seitenabfrage von der Olostep-API anfordert. Alle Felder sind optional.
Antwort
Crawl erfolgreich gestartet.
Crawl-ID
Die Art des Objekts. "crawl" für diesen Endpunkt.
in_progress oder completed
Erstellungszeit im Epoch-Format
Erstellungszeit im Datumsformat
Die aktuelle Tiefe des Crawl-Prozesses.
Anzahl der gecrawlten Seiten
Anzahl der durch diese Anfrage verbrauchten Credits. Wird nach Abschluss der Ausführung ausgefüllt. Credits sind die Grundlage für die Abrechnung.
Geschätzte Kosten in USD für diese Anfrage. Wird nach Abschluss der Ausführung ausgefüllt. Berechnet aus den verbrauchten Credits und deinem Tarif — 99% genau, aber credits_consumed ist der maßgebliche Wert.