/v1/maps, tu peux obtenir toutes les URLs d’un site web. Cela est utile pour la découverte de contenu, l’analyse de la structure du site (par exemple, SEO), ou pour décider quelles URLs tu souhaites scraper ensuite.
- Obtenez toutes les URLs d’un site web (y compris les sitemaps et les liens découverts)
- Utilisez des motifs spéciaux pour inclure/exclure des chemins (par exemple,
/blog/**) - Paginer les réponses volumineuses avec
cursor(jusqu’à 10 Mo par réponse) - Limiter le volume avec
top_n
Installation
Utilisation
Envoie une requête POST avec l’url du site web. Tu peux éventuellement passer include_urls, exclude_urls (motifs globaux), et top_n.
cursor qui peut être utilisé pour la pagination et pour obtenir les URLs suivantes. Pour plus de détails, consulte la Référence de l’API.
Cet endpoint est particulièrement utile lorsque tu as besoin de :
- Découvrir toutes les pages de contenu d’un site web
- Analyser la structure et la hiérarchie du site
- Préparer les URLs pour un traitement par lots
- Décider quelles URLs spécifiques scraper
include_urls et exclude_urls.
Exemple
Disons que depuis www.brex.com, tu veux extraire toutes les URLs qui ont les chemins après/product/, par exemple https://www.brex.com/product/api/no-code, mais aussi inclure www.brex.com/product.
Tu peux utiliser le code suivant :