/v1/crawls, tu peux crawler un site web et obtenir le contenu de toutes les pages.
- Crawler un site web et obtenir le contenu de toutes les sous-pages (ou limiter la profondeur du crawl)
- Utiliser des motifs spéciaux pour crawler des pages spécifiques (par exemple,
/blog/**) - Passer une
webhook_urlpour être notifié lorsque le crawl est terminé - Requête de recherche pour ne trouver que des pages spécifiques et trier par pertinence
Installation
Démarrer un crawl
Fournis l’URL de départ, inclus/exclus des globes d’URL, etmax_pages. Optionnel : max_depth, include_external, include_subdomain, search_query, top_n, webhook_url, timeout.
crawl en réponse. L’objet crawl possède quelques propriétés comme id et status, que tu peux utiliser pour suivre le crawl.
Vérifier le statut du crawl
Interroger le crawl pour suivre la progression jusqu’à ce que lestatus soit completed.
webhook_url lors du démarrage du crawl pour être notifié lorsque le crawl est terminé.
Lister les pages (pagination/flux avec curseur)
Récupérer les pages et itérer en utilisantcursor et limit. Fonctionne pendant que le crawl est in_progress ou completed.
Requête de recherche (limiter aux N plus pertinents)
Utilisersearch_query au début, et éventuellement filtrer la liste avec search_query. Limiter l’exploration par page avec top_n.
Récupérer le contenu
Utilise leretrieve_id de chaque page avec /v1/retrieve pour récupérer html_content et/ou markdown_content.
Remarques
- La pagination est basée sur le curseur ; répéter les requêtes jusqu’à ce que le
cursorsoit absent. - Les champs de contenu sur
/v1/crawls/{crawl_id}/pagessont obsolètes ; préférer/v1/retrieve. - Webhooks : définir
webhook_urlpour recevoir un POST lorsque le crawl est terminé.