Avvia un nuovo crawl. Ricevi un id per tracciare il progresso. L’operazione può richiedere da 1 a 10 minuti a seconda del sito e dei parametri di profondità e pagine.
Documentation Index
Fetch the complete documentation index at: https://docs.olostep.com/llms.txt
Use this file to discover all available pages before exploring further.
Intestazione di autenticazione Bearer della forma Bearer , dove è il tuo token di autenticazione.
Il punto di partenza del crawl.
Numero massimo di pagine da fare il crawl. Consigliato per la maggior parte dei casi d'uso come fare il crawl di un intero sito web.
Modelli di percorso URL da includere nel crawl usando la sintassi glob. Di default è /** che include tutti gli URL. Usa modelli come /blog/** per fare il crawl di sezioni specifiche (ad esempio, solo le pagine del blog), /products/*.html per le pagine dei prodotti, o modelli multipli per sezioni diverse. Supporta le funzionalità standard glob come * (qualsiasi carattere) e ** (corrispondenza ricorsiva).
Nomi di percorso URL nel modello glob da escludere. Ad esempio: /careers/**. Gli URL esclusi avranno la precedenza sugli URL inclusi.
Profondità massima del crawl. Utile per estrarre solo fino a n gradi di link.
Fai il crawl dei link esterni di primo grado.
Includi i sottodomini del sito web. false di default.
Una query di ricerca opzionale per trovare link specifici e anche ordinare i risultati per rilevanza.
Un numero opzionale per fare il crawl solo dei primi N link più rilevanti su ogni pagina secondo la query di ricerca.
Termina il crawl dopo n secondi con le pagine completate fino a quel momento. Potrebbe richiedere ~10s extra rispetto al timeout fornito.
Se rispettare le regole di robots.txt. Se impostato su false, il crawler farà lo scraping del sito web indipendentemente dalle direttive di disallow di robots.txt. true di default.
Controlla cosa richiede ogni singola pagina di scrape dall'API di Olostep. Tutti i campi sono opzionali.
Crawl avviato con successo.
ID del Crawl
Il tipo di oggetto. "crawl" per questo endpoint.
in_progress o completed
Tempo di creazione in epoch
Tempo di creazione in data
La profondità attuale del processo di crawl.
Conteggio delle pagine scansionate