Saltar al contenido principal
POST
/
v1
/
crawls
Einen neuen Crawl starten
curl --request POST \
  --url https://api.olostep.com/v1/crawls \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "start_url": "<string>",
  "max_pages": 123,
  "include_urls": [
    "<string>"
  ],
  "exclude_urls": [
    "<string>"
  ],
  "max_depth": 123,
  "include_external": true,
  "include_subdomain": true,
  "search_query": "<string>",
  "top_n": 123,
  "webhook": "<string>",
  "timeout": 123,
  "follow_robots_txt": true,
  "scrape_options": {
    "formats": [
      "markdown",
      "screenshot"
    ],
    "parser": "@olostep/extract-emails"
  }
}
'
{
  "id": "<string>",
  "object": "<string>",
  "status": "<string>",
  "created": 123,
  "start_date": "<string>",
  "start_url": "<string>",
  "max_pages": 123,
  "max_depth": 123,
  "exclude_urls": [
    "<string>"
  ],
  "include_urls": [
    "<string>"
  ],
  "include_external": true,
  "search_query": "<string>",
  "top_n": 123,
  "current_depth": 123,
  "pages_count": 123,
  "webhook": "<string>",
  "follow_robots_txt": true
}
Recibe notificaciones al completar: Pasa el parámetro webhook con la URL de tu endpoint para recibir un HTTP POST cuando el rastreo se complete. Consulta Webhooks para más detalles.

Autorizaciones

Authorization
string
header
requerido

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Cuerpo

application/json
start_url
string
requerido

Der Startpunkt des Crawls.

max_pages
number
requerido

Maximale Anzahl von Seiten, die gecrawlt werden sollen. Empfohlen für die meisten Anwendungsfälle wie das Crawlen einer gesamten Website.

include_urls
string[]

URL-Pfadmuster, die im Crawl mit Glob-Syntax eingeschlossen werden sollen. Standardmäßig /**, was alle URLs einschließt. Verwenden Sie Muster wie /blog/**, um spezifische Abschnitte zu crawlen (z.B. nur Blog-Seiten), /products/*.html für Produktseiten oder mehrere Muster für verschiedene Abschnitte. Unterstützt standardmäßige Glob-Funktionen wie * (beliebige Zeichen) und ** (rekursives Matching).

exclude_urls
string[]

URL-Pfadnamen im Glob-Muster, die ausgeschlossen werden sollen. Zum Beispiel: /careers/**. Ausgeschlossene URLs haben Vorrang vor eingeschlossenen URLs.

max_depth
number

Maximale Tiefe des Crawls. Nützlich, um nur bis zu einem n-Grad von Links zu extrahieren.

include_external
boolean

Erste-Grad-Externe-Links crawlen.

include_subdomain
boolean

Subdomains der Website einbeziehen. Standardmäßig false.

search_query
string

Eine optionale Suchanfrage, um spezifische Links zu finden und die Ergebnisse nach Relevanz zu sortieren.

top_n
number

Eine optionale Zahl, um nur die N relevantesten Links auf jeder Seite gemäß der Suchanfrage zu crawlen.

webhook
string<uri>

HTTPS-URL, um eine POST-Anfrage zu erhalten, wenn der Crawl abgeschlossen ist. Muss eine öffentlich zugängliche URL mit http:// oder https://-Protokoll sein. Kann nicht auf localhost oder private IP-Adressen verweisen. Siehe Webhooks für das Payload-Format und das Wiederholungsverhalten.

timeout
number

Beenden Sie den Crawl nach n Sekunden mit den bis dahin abgeschlossenen Seiten. Kann ~10s zusätzlich zur angegebenen Timeout-Dauer in Anspruch nehmen.

follow_robots_txt
boolean
predeterminado:true

Ob die Regeln von robots.txt beachtet werden sollen. Wenn auf false gesetzt, wird der Crawler die Website unabhängig von den Disallow-Direktiven in robots.txt scrapen. Standardmäßig true.

scrape_options
object

Steuert, was jede einzelne Seitenabfrage von der Olostep-API anfordert. Alle Felder sind optional.

Respuesta

Crawl erfolgreich gestartet.

id
string

Crawl-ID

object
string

Die Art des Objekts. "crawl" für diesen Endpunkt.

status
string

in_progress oder completed

created
number

Erstellungszeit in Epoch

start_date
string

Erstellungszeit im Datum

start_url
string
max_pages
number
max_depth
number
exclude_urls
string[]
include_urls
string[]
include_external
boolean
search_query
string
top_n
number
current_depth
number

Die aktuelle Tiefe des Crawl-Prozesses.

pages_count
number

Anzahl der gecrawlten Seiten

webhook
string
follow_robots_txt
boolean