Crawl erstellen

curl --request POST \ --url https://api.olostep.com/v1/crawls \ --header 'Authorization: Bearer <token>' \ --header 'Content-Type: application/json' \ --data ' { "start_url": "<string>", "max_pages": 123, "include_urls": [ "<string>" ], "exclude_urls": [ "<string>" ], "max_depth": 123, "include_external": true, "include_subdomain": true, "search_query": "<string>", "top_n": 123, "webhook": "<string>", "timeout": 123, "follow_robots_txt": true, "scrape_options": { "formats": [ "markdown", "screenshot" ], "parser": "@olostep/extract-emails" } } '

{ "id": "<string>", "object": "<string>", "status": "<string>", "created": 123, "start_date": "<string>", "start_url": "<string>", "max_pages": 123, "max_depth": 123, "exclude_urls": [ "<string>" ], "include_urls": [ "<string>" ], "include_external": true, "search_query": "<string>", "top_n": 123, "current_depth": 123, "pages_count": 123, "webhook": "<string>", "follow_robots_txt": true }

Autorisierungen

Authorization

string

header

erforderlich

Bearer-Authentifizierungsheader in der Form Bearer , wobei dein Authentifizierungstoken ist.

Body

application/json

start_url

string

erforderlich

Der Startpunkt des Crawls.

max_pages

number

erforderlich

Maximale Anzahl von Seiten, die gecrawlt werden sollen. Empfohlen für die meisten Anwendungsfälle wie das Crawlen einer gesamten Website.

include_urls

string[]

URL-Pfadmuster, die im Crawl mit Glob-Syntax eingeschlossen werden sollen. Standardmäßig /**, was alle URLs einschließt. Verwende Muster wie /blog/**, um bestimmte Abschnitte zu crawlen (z.B. nur Blog-Seiten), /products/*.html für Produktseiten oder mehrere Muster für verschiedene Abschnitte. Unterstützt Standard-Glob-Funktionen wie * (beliebige Zeichen) und ** (rekursive Übereinstimmung).

exclude_urls

string[]

URL-Pfadnamen im Glob-Muster, die ausgeschlossen werden sollen. Zum Beispiel: /careers/**. Ausgeschlossene URLs haben Vorrang vor eingeschlossenen URLs.

max_depth

number

Maximale Tiefe des Crawls. Nützlich, um nur bis zu einem bestimmten Grad von Links zu extrahieren.

include_external

boolean

Crawl von externen Links ersten Grades.

include_subdomain

boolean

Einbeziehen von Subdomains der Website. Standardmäßig false.

search_query

string

Eine optionale Suchanfrage, um spezifische Links zu finden und die Ergebnisse auch nach Relevanz zu sortieren.

top_n

number

Eine optionale Zahl, um nur die N relevantesten Links auf jeder Seite gemäß der Suchanfrage zu crawlen.

webhook

string<uri>

HTTPS-URL, um eine POST-Anfrage zu erhalten, wenn der Crawl abgeschlossen ist. Muss eine öffentlich zugängliche URL mit http:// oder https://-Protokoll sein. Kann nicht auf localhost oder private IP-Adressen verweisen. Siehe Webhooks für das Payload-Format und das Wiederholungsverhalten.

timeout

number

Beende den Crawl nach n Sekunden mit den bis dahin abgeschlossenen Seiten. Kann ~10s extra von der angegebenen Timeout-Zeit in Anspruch nehmen.

follow_robots_txt

boolean

Standard:true

Ob die Regeln von robots.txt beachtet werden sollen. Wenn auf false gesetzt, wird der Crawler die Website unabhängig von den Disallow-Direktiven in robots.txt scrapen. Standardmäßig true.

scrape_options

object

Steuert, was jede einzelne Seitenabfrage von der Olostep-API anfordert. Alle Felder sind optional.

Show child attributes

Antwort

Crawl erfolgreich gestartet.

string

Crawl-ID

object

string

Die Art des Objekts. "crawl" für diesen Endpunkt.

status

string

in_progress oder completed

created

number

Erstellungszeit im Epoch-Format

start_date

string

Erstellungszeit im Datumsformat

start_url

string

max_pages

number

max_depth

number

exclude_urls

string[]

include_urls

string[]

include_external

boolean

search_query

string

top_n

number

current_depth

number

Die aktuelle Tiefe des Crawl-Prozesses.

pages_count

number

Anzahl der gecrawlten Seiten

webhook

string

follow_robots_txt

boolean

Allgemein

Abschürfungen

Chargen

Durchläufe

Karten

Antworten

Suche

Dateien

Zeitpläne

Abrufen

Autorisierungen

Body

Antwort

Allgemein

Abschürfungen

Chargen

Durchläufe

Karten

Antworten

Suche

Dateien

Zeitpläne

Abrufen

Documentation Index

Autorisierungen

Body

Antwort