新しいクロールを開始します。進行状況を追跡するための id を受け取ります。この操作は、サイト、深さ、ページのパラメーターによって1〜10分かかる場合があります。
Bearer authentication header of the form Bearer <token>, where <token> is your auth token.
Der Startpunkt des Crawls.
Maximale Anzahl von Seiten, die gecrawlt werden sollen. Empfohlen für die meisten Anwendungsfälle wie das Crawlen einer gesamten Website.
URL-Pfadmuster, die im Crawl mit Glob-Syntax eingeschlossen werden sollen. Standardmäßig /**, was alle URLs einschließt. Verwenden Sie Muster wie /blog/**, um spezifische Abschnitte zu crawlen (z.B. nur Blog-Seiten), /products/*.html für Produktseiten oder mehrere Muster für verschiedene Abschnitte. Unterstützt standardmäßige Glob-Funktionen wie * (beliebige Zeichen) und ** (rekursives Matching).
URL-Pfadnamen im Glob-Muster, die ausgeschlossen werden sollen. Zum Beispiel: /careers/**. Ausgeschlossene URLs haben Vorrang vor eingeschlossenen URLs.
Maximale Tiefe des Crawls. Nützlich, um nur bis zu einem n-Grad von Links zu extrahieren.
Erste-Grad-Externe-Links crawlen.
Subdomains der Website einbeziehen. Standardmäßig false.
Eine optionale Suchanfrage, um spezifische Links zu finden und die Ergebnisse nach Relevanz zu sortieren.
Eine optionale Zahl, um nur die N relevantesten Links auf jeder Seite gemäß der Suchanfrage zu crawlen.
HTTPS-URL, um eine POST-Anfrage zu erhalten, wenn der Crawl abgeschlossen ist. Muss eine öffentlich zugängliche URL mit http:// oder https://-Protokoll sein. Kann nicht auf localhost oder private IP-Adressen verweisen. Siehe Webhooks für das Payload-Format und das Wiederholungsverhalten.
Beenden Sie den Crawl nach n Sekunden mit den bis dahin abgeschlossenen Seiten. Kann ~10s zusätzlich zur angegebenen Timeout-Dauer in Anspruch nehmen.
Ob die Regeln von robots.txt beachtet werden sollen. Wenn auf false gesetzt, wird der Crawler die Website unabhängig von den Disallow-Direktiven in robots.txt scrapen. Standardmäßig true.
Steuert, was jede einzelne Seitenabfrage von der Olostep-API anfordert. Alle Felder sind optional.
Crawl erfolgreich gestartet.
Crawl-ID
Die Art des Objekts. "crawl" für diesen Endpunkt.
in_progress oder completed
Erstellungszeit in Epoch
Erstellungszeit im Datum
Die aktuelle Tiefe des Crawl-Prozesses.
Anzahl der gecrawlten Seiten