跳转到主要内容
POST
/
v1
/
crawls
Einen neuen Crawl starten
curl --request POST \
  --url https://api.olostep.com/v1/crawls \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "start_url": "<string>",
  "max_pages": 123,
  "include_urls": [
    "<string>"
  ],
  "exclude_urls": [
    "<string>"
  ],
  "max_depth": 123,
  "include_external": true,
  "include_subdomain": true,
  "search_query": "<string>",
  "top_n": 123,
  "webhook": "<string>",
  "timeout": 123,
  "follow_robots_txt": true,
  "scrape_options": {
    "formats": [
      "markdown",
      "screenshot"
    ],
    "parser": "@olostep/extract-emails"
  }
}
'
{
  "id": "<string>",
  "object": "<string>",
  "status": "<string>",
  "created": 123,
  "start_date": "<string>",
  "start_url": "<string>",
  "max_pages": 123,
  "max_depth": 123,
  "exclude_urls": [
    "<string>"
  ],
  "include_urls": [
    "<string>"
  ],
  "include_external": true,
  "search_query": "<string>",
  "top_n": 123,
  "current_depth": 123,
  "pages_count": 123,
  "webhook": "<string>",
  "follow_robots_txt": true
}
完成时接收通知: 传递 webhook 参数和您的端点 URL,以在爬取完成时接收一个 HTTP POST。详情请参见 Webhooks

授权

Authorization
string
header
必填

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

请求体

application/json
start_url
string
必填

Der Startpunkt des Crawls.

max_pages
number
必填

Maximale Anzahl von Seiten, die gecrawlt werden sollen. Empfohlen für die meisten Anwendungsfälle wie das Crawlen einer gesamten Website.

include_urls
string[]

URL-Pfadmuster, die im Crawl mit Glob-Syntax eingeschlossen werden sollen. Standardmäßig /**, was alle URLs einschließt. Verwenden Sie Muster wie /blog/**, um spezifische Abschnitte zu crawlen (z.B. nur Blog-Seiten), /products/*.html für Produktseiten oder mehrere Muster für verschiedene Abschnitte. Unterstützt standardmäßige Glob-Funktionen wie * (beliebige Zeichen) und ** (rekursives Matching).

exclude_urls
string[]

URL-Pfadnamen im Glob-Muster, die ausgeschlossen werden sollen. Zum Beispiel: /careers/**. Ausgeschlossene URLs haben Vorrang vor eingeschlossenen URLs.

max_depth
number

Maximale Tiefe des Crawls. Nützlich, um nur bis zu einem n-Grad von Links zu extrahieren.

include_external
boolean

Erste-Grad-Externe-Links crawlen.

include_subdomain
boolean

Subdomains der Website einbeziehen. Standardmäßig false.

search_query
string

Eine optionale Suchanfrage, um spezifische Links zu finden und die Ergebnisse nach Relevanz zu sortieren.

top_n
number

Eine optionale Zahl, um nur die N relevantesten Links auf jeder Seite gemäß der Suchanfrage zu crawlen.

webhook
string<uri>

HTTPS-URL, um eine POST-Anfrage zu erhalten, wenn der Crawl abgeschlossen ist. Muss eine öffentlich zugängliche URL mit http:// oder https://-Protokoll sein. Kann nicht auf localhost oder private IP-Adressen verweisen. Siehe Webhooks für das Payload-Format und das Wiederholungsverhalten.

timeout
number

Beenden Sie den Crawl nach n Sekunden mit den bis dahin abgeschlossenen Seiten. Kann ~10s zusätzlich zur angegebenen Timeout-Dauer in Anspruch nehmen.

follow_robots_txt
boolean
默认值:true

Ob die Regeln von robots.txt beachtet werden sollen. Wenn auf false gesetzt, wird der Crawler die Website unabhängig von den Disallow-Direktiven in robots.txt scrapen. Standardmäßig true.

scrape_options
object

Steuert, was jede einzelne Seitenabfrage von der Olostep-API anfordert. Alle Felder sind optional.

响应

Crawl erfolgreich gestartet.

id
string

Crawl-ID

object
string

Die Art des Objekts. "crawl" für diesen Endpunkt.

status
string

in_progress oder completed

created
number

Erstellungszeit in Epoch

start_date
string

Erstellungszeit im Datum

start_url
string
max_pages
number
max_depth
number
exclude_urls
string[]
include_urls
string[]
include_external
boolean
search_query
string
top_n
number
current_depth
number

Die aktuelle Tiefe des Crawl-Prozesses.

pages_count
number

Anzahl der gecrawlten Seiten

webhook
string
follow_robots_txt
boolean