Naar hoofdinhoud gaan
POST
/
v1
/
crawls
Start een nieuwe crawl
curl --request POST \
  --url https://api.olostep.com/v1/crawls \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "start_url": "<string>",
  "max_pages": 123,
  "include_urls": [
    "<string>"
  ],
  "exclude_urls": [
    "<string>"
  ],
  "max_depth": 123,
  "include_external": true,
  "include_subdomain": true,
  "search_query": "<string>",
  "top_n": 123,
  "webhook": "<string>",
  "timeout": 123,
  "follow_robots_txt": true,
  "scrape_options": {
    "formats": [
      "markdown",
      "screenshot"
    ],
    "parser": "@olostep/extract-emails"
  }
}
'
{
  "id": "<string>",
  "object": "<string>",
  "status": "<string>",
  "created": 123,
  "start_date": "<string>",
  "start_url": "<string>",
  "max_pages": 123,
  "max_depth": 123,
  "exclude_urls": [
    "<string>"
  ],
  "include_urls": [
    "<string>"
  ],
  "include_external": true,
  "search_query": "<string>",
  "top_n": 123,
  "current_depth": 123,
  "pages_count": 123,
  "webhook": "<string>",
  "follow_robots_txt": true
}
Ontvang een melding bij voltooiing: Geef de webhook parameter door met je endpoint URL om een HTTP POST te ontvangen wanneer de crawl voltooid is. Zie Webhooks voor meer details.

Autorisaties

Authorization
string
header
vereist

Bearer authenticatie header in de vorm Bearer , waarbij jouw auth token is.

Body

application/json
start_url
string
vereist

Het startpunt van de crawl.

max_pages
number
vereist

Maximum aantal pagina's om te crawlen. Aanbevolen voor de meeste gebruikssituaties zoals het crawlen van een hele website.

include_urls
string[]

URL-padpatronen om op te nemen in de crawl met behulp van glob-syntaxis. Standaard is /** wat alle URLs omvat. Gebruik patronen zoals /blog/** om specifieke secties te crawlen (bijv. alleen blogpagina's), /products/*.html voor productpagina's, of meerdere patronen voor verschillende secties. Ondersteunt standaard glob-functies zoals * (alle tekens) en ** (recursieve matching).

exclude_urls
string[]

URL-padnamen in glob-patroon om uit te sluiten. Bijvoorbeeld: /careers/**. Uitgesloten URLs zullen voorrang hebben op opgenomen URLs.

max_depth
number

Maximale diepte van de crawl. Handig om alleen tot n-graad van links te extraheren.

include_external
boolean

Crawl eerste-graads externe links.

include_subdomain
boolean

Subdomeinen van de website opnemen. Standaard false.

search_query
string

Een optionele zoekopdracht om specifieke links te vinden en ook de resultaten te sorteren op relevantie.

top_n
number

Een optioneel aantal om alleen de top N meest relevante links op elke pagina te crawlen volgens de zoekopdracht.

webhook
string<uri>

HTTPS URL om een POST-verzoek te ontvangen wanneer de crawl voltooid is. Moet een openbaar toegankelijke URL zijn met gebruik van http:// of https:// protocol. Kan niet wijzen naar localhost of privé IP-adressen. Zie Webhooks voor payloadformaat en retry-gedrag.

timeout
number

Beëindig de crawl na n seconden met de tot dan toe voltooide pagina's. Kan ~10s extra duren vanaf de opgegeven timeout.

follow_robots_txt
boolean
standaard:true

Of robots.txt-regels gerespecteerd moeten worden. Als ingesteld op false, zal de crawler de website scrapen ongeacht robots.txt disallow-richtlijnen. Standaard true.

scrape_options
object

Bepaalt wat elke individuele pagina scrape aanvraagt van de Olostep API. Alle velden zijn optioneel.

Respons

Crawl succesvol gestart.

id
string

Crawl ID

object
string

Het soort object. "crawl" voor deze endpoint.

status
string

in_progress of completed

created
number

Aangemaakte tijd in epoch

start_date
string

Aangemaakte tijd in datum

start_url
string
max_pages
number
max_depth
number
exclude_urls
string[]
include_urls
string[]
include_external
boolean
search_query
string
top_n
number
current_depth
number

De huidige diepte van het crawlproces.

pages_count
number

Aantal gecrawlde pagina's

webhook
string
follow_robots_txt
boolean