Vai al contenuto principale
POST
/
v1
/
crawls
Avvia un nuovo crawl
curl --request POST \
  --url https://api.olostep.com/v1/crawls \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "start_url": "<string>",
  "max_pages": 123,
  "include_urls": [
    "<string>"
  ],
  "exclude_urls": [
    "<string>"
  ],
  "max_depth": 123,
  "include_external": true,
  "include_subdomain": true,
  "search_query": "<string>",
  "top_n": 123,
  "webhook": "<string>",
  "timeout": 123,
  "follow_robots_txt": true,
  "scrape_options": {
    "formats": [
      "markdown",
      "screenshot"
    ],
    "parser": "@olostep/extract-emails"
  }
}
'
{
  "id": "<string>",
  "object": "<string>",
  "status": "<string>",
  "created": 123,
  "start_date": "<string>",
  "start_url": "<string>",
  "max_pages": 123,
  "max_depth": 123,
  "exclude_urls": [
    "<string>"
  ],
  "include_urls": [
    "<string>"
  ],
  "include_external": true,
  "search_query": "<string>",
  "top_n": 123,
  "current_depth": 123,
  "pages_count": 123,
  "webhook": "<string>",
  "follow_robots_txt": true
}
Ricevi una notifica al completamento: Passa il parametro webhook con l’URL del tuo endpoint per ricevere un HTTP POST quando il crawl è completato. Vedi Webhooks per i dettagli.

Autorizzazioni

Authorization
string
header
obbligatorio

Intestazione di autenticazione Bearer della forma Bearer , dove è il tuo token di autenticazione.

Corpo

application/json
start_url
string
obbligatorio

Il punto di partenza del crawl.

max_pages
number
obbligatorio

Numero massimo di pagine da fare il crawl. Consigliato per la maggior parte dei casi d'uso come fare il crawl di un intero sito web.

include_urls
string[]

Modelli di percorso URL da includere nel crawl usando la sintassi glob. Di default è /** che include tutti gli URL. Usa modelli come /blog/** per fare il crawl di sezioni specifiche (ad esempio, solo le pagine del blog), /products/*.html per le pagine dei prodotti, o modelli multipli per sezioni diverse. Supporta le funzionalità standard glob come * (qualsiasi carattere) e ** (corrispondenza ricorsiva).

exclude_urls
string[]

Nomi di percorso URL nel modello glob da escludere. Ad esempio: /careers/**. Gli URL esclusi avranno la precedenza sugli URL inclusi.

max_depth
number

Profondità massima del crawl. Utile per estrarre solo fino a n gradi di link.

include_external
boolean

Fai il crawl dei link esterni di primo grado.

include_subdomain
boolean

Includi i sottodomini del sito web. false di default.

search_query
string

Una query di ricerca opzionale per trovare link specifici e anche ordinare i risultati per rilevanza.

top_n
number

Un numero opzionale per fare il crawl solo dei primi N link più rilevanti su ogni pagina secondo la query di ricerca.

webhook
string<uri>

URL HTTPS per ricevere una richiesta POST quando il crawl è completato. Deve essere un URL pubblicamente accessibile usando il protocollo http:// o https://. Non può puntare a localhost o indirizzi IP privati. Vedi Webhooks per il formato del payload e il comportamento di retry.

timeout
number

Termina il crawl dopo n secondi con le pagine completate fino a quel momento. Potrebbe richiedere ~10s extra rispetto al timeout fornito.

follow_robots_txt
boolean
predefinito:true

Se rispettare le regole di robots.txt. Se impostato su false, il crawler farà lo scraping del sito web indipendentemente dalle direttive di disallow di robots.txt. true di default.

scrape_options
object

Controlla cosa richiede ogni singola pagina di scrape dall'API di Olostep. Tutti i campi sono opzionali.

Risposta

Crawl avviato con successo.

id
string

ID del Crawl

object
string

Il tipo di oggetto. "crawl" per questo endpoint.

status
string

in_progress o completed

created
number

Tempo di creazione in epoch

start_date
string

Tempo di creazione in data

start_url
string
max_pages
number
max_depth
number
exclude_urls
string[]
include_urls
string[]
include_external
boolean
search_query
string
top_n
number
current_depth
number

La profondità attuale del processo di crawl.

pages_count
number

Conteggio delle pagine scansionate

webhook
string
follow_robots_txt
boolean