/v1/crawls di Olostep puoi eseguire un crawl di un sito web e ottenere il contenuto di tutte le pagine.
- Esegui un crawl di un sito web e ottieni il contenuto di tutte le sottopagine (o limita la profondità del crawl)
- Usa pattern speciali per eseguire un crawl di pagine specifiche (ad es.
/blog/**) - Passa un
webhook_urlper ricevere una notifica quando il crawl è completato - Query di ricerca per trovare solo pagine specifiche e ordinarle per rilevanza
Installazione
Avvia un crawl
Fornisci l’URL di partenza, includi/escludi glob di URL emax_pages. Opzionale: max_depth, include_external, include_subdomain, search_query, top_n, webhook_url, timeout.
crawl in risposta. L’oggetto crawl ha alcune proprietà come id e status, che puoi usare per tracciare il crawl.
Controlla lo stato del crawl
Interroga il crawl per monitorare i progressi fino a quandostatus è completed.
webhook_url quando avvii il crawl per essere notificato quando il crawl è completato.
Elenca le pagine (paginazione/stream con cursore)
Recupera le pagine e itera usandocursor e limit. Funziona mentre il crawl è in_progress o completed.
Query di ricerca (limita ai primi N rilevanti)
Usasearch_query all’inizio e opzionalmente filtra l’elenco con search_query. Limita l’esplorazione per pagina con top_n.
Recupera contenuto
Usa ilretrieve_id di ciascuna pagina con /v1/retrieve per recuperare html_content e/o markdown_content.
Note
- La paginazione è basata su cursore; ripeti le richieste fino a quando il
cursorè assente. - I campi di contenuto su
/v1/crawls/{crawl_id}/pagessono deprecati; preferisci/v1/retrieve. - Webhook: imposta
webhook_urlper ricevere un POST quando il crawl è completato.