Crea Crawl

curl --request POST \ --url https://api.olostep.com/v1/crawls \ --header 'Authorization: Bearer <token>' \ --header 'Content-Type: application/json' \ --data ' { "start_url": "<string>", "max_pages": 123, "include_urls": [ "<string>" ], "exclude_urls": [ "<string>" ], "max_depth": 123, "include_external": true, "include_subdomain": true, "search_query": "<string>", "top_n": 123, "webhook": "<string>", "timeout": 123, "follow_robots_txt": true, "scrape_options": { "formats": [ "markdown", "screenshot" ], "parser": "@olostep/extract-emails" } } '

{ "id": "<string>", "object": "<string>", "status": "<string>", "created": 123, "start_date": "<string>", "start_url": "<string>", "max_pages": 123, "max_depth": 123, "exclude_urls": [ "<string>" ], "include_urls": [ "<string>" ], "include_external": true, "search_query": "<string>", "top_n": 123, "current_depth": 123, "pages_count": 123, "webhook": "<string>", "follow_robots_txt": true }

Autorizzazioni

Authorization

string

header

obbligatorio

Intestazione di autenticazione Bearer della forma Bearer , dove è il tuo token di autenticazione.

Corpo

application/json

start_url

string

obbligatorio

Il punto di partenza del crawl.

max_pages

number

obbligatorio

Numero massimo di pagine da fare il crawl. Consigliato per la maggior parte dei casi d'uso come fare il crawl di un intero sito web.

include_urls

string[]

Modelli di percorso URL da includere nel crawl usando la sintassi glob. Di default è /** che include tutti gli URL. Usa modelli come /blog/** per fare il crawl di sezioni specifiche (ad esempio, solo le pagine del blog), /products/*.html per le pagine dei prodotti, o modelli multipli per sezioni diverse. Supporta le funzionalità standard glob come * (qualsiasi carattere) e ** (corrispondenza ricorsiva).

exclude_urls

string[]

Nomi di percorso URL nel modello glob da escludere. Ad esempio: /careers/**. Gli URL esclusi avranno la precedenza sugli URL inclusi.

max_depth

number

Profondità massima del crawl. Utile per estrarre solo fino a n gradi di link.

include_external

boolean

Fai il crawl dei link esterni di primo grado.

include_subdomain

boolean

Includi i sottodomini del sito web. false di default.

search_query

string

Una query di ricerca opzionale per trovare link specifici e anche ordinare i risultati per rilevanza.

top_n

number

Un numero opzionale per fare il crawl solo dei primi N link più rilevanti su ogni pagina secondo la query di ricerca.

webhook

string<uri>

URL HTTPS per ricevere una richiesta POST quando il crawl è completato. Deve essere un URL pubblicamente accessibile usando il protocollo http:// o https://. Non può puntare a localhost o indirizzi IP privati. Vedi Webhooks per il formato del payload e il comportamento di retry.

timeout

number

Termina il crawl dopo n secondi con le pagine completate fino a quel momento. Potrebbe richiedere ~10s extra rispetto al timeout fornito.

follow_robots_txt

boolean

predefinito:true

Se rispettare le regole di robots.txt. Se impostato su false, il crawler farà lo scraping del sito web indipendentemente dalle direttive di disallow di robots.txt. true di default.

scrape_options

object

Controlla cosa richiede ogni singola pagina di scrape dall'API di Olostep. Tutti i campi sono opzionali.

Show child attributes

Risposta

Crawl avviato con successo.

string

ID del Crawl

object

string

Il tipo di oggetto. "crawl" per questo endpoint.

status

string

in_progress o completed

created

number

Tempo di creazione in epoch

start_date

string

Tempo di creazione in data

start_url

string

max_pages

number

max_depth

number

exclude_urls

string[]

include_urls

string[]

include_external

boolean

search_query

string

top_n

number

current_depth

number

La profondità attuale del processo di crawl.

pages_count

number

Conteggio delle pagine scansionate

webhook

string

follow_robots_txt

boolean

Comune

Raschiature

Lotti

Scansioni

Mappe

Risposte

Cerca

File

Programmi

Recupera

Autorizzazioni

Corpo

Risposta

Comune

Raschiature

Lotti

Scansioni

Mappe

Risposte

Cerca

File

Programmi

Recupera

Documentation Index

Autorizzazioni

Corpo

Risposta