/v1/maps, tu peux obtenir toutes les URLs d’un site web. Cela est utile pour la découverte de contenu, l’analyse de la structure du site (par exemple, SEO), ou pour décider quelles URLs tu souhaites scraper ensuite.
- Obtiens toutes les URLs d’un site web (y compris les sitemaps et les liens découverts)
- Utilise des motifs spéciaux pour inclure/exclure des chemins (par exemple,
/blog/**) - Paginer les réponses volumineuses avec
cursor(jusqu’à 10MB par réponse) - Limiter le volume avec
top_n
Installation
Utilisation
Envoie une requête POST avec l’url du site web. Tu peux également passer include_urls, exclude_urls (motifs globaux), et top_n.
cursor qui peut être utilisé pour la pagination et obtenir les URLs suivantes. Pour plus de détails, consulte la Référence de l’API.
Cet endpoint est particulièrement utile lorsque tu as besoin de :
- Découvrir toutes les pages de contenu d’un site web
- Analyser la structure et la hiérarchie du site
- Préparer les URLs pour un traitement par lots
- Décider quelles URLs spécifiques scraper
include_urls et exclude_urls.
Exemple
Disons que depuis www.brex.com tu veux extraire toutes les URLs qui ont les chemins après/product/ par exemple https://www.brex.com/product/api/no-code mais aussi inclure www.brex.com/product.
Tu peux utiliser le code suivant :