Use this file to discover all available pages before exploring further.
Grâce à l’endpoint Olostep /v1/maps, tu peux obtenir toutes les URL d’un site web. Cela est utile pour la découverte de contenu, l’analyse de la structure du site (par exemple, SEO), ou pour décider quelles URL tu souhaites extraire ensuite.
Obtenez toutes les URL d’un site web (y compris les sitemaps et les liens découverts)
Utilisez des motifs spéciaux pour inclure/exclure des chemins (par exemple, /blog/**)
Paginer les réponses volumineuses avec cursor (jusqu’à 10 Mo par réponse)
Envoie une requête POST avec l’url du site web. Optionnellement, passe include_urls, exclude_urls (motifs globaux), et top_n.
from olostep import Olostepclient = Olostep(api_key="YOUR_REAL_KEY")sitemap = client.maps.create(url="https://docs.olostep.com")for url in sitemap.urls(): print(url)
Le temps de réponse est généralement de quelques secondes mais peut prendre jusqu’à 120 secondes pour des sites web plus complexes. Il peut extraire toutes les URL d’un site web, même les backlinks et celles non présentes dans les Sitemaps. Tu peux aussi décider des chemins d’URL que tu veux inclure ou exclure de la réponse.Par défaut, l’endpoint renvoie environ 100k URL en un seul appel (10 Mo max). Si la réponse inclut plus de données, l’API renvoie un paramètre cursor qui peut être utilisé pour la pagination et obtenir les URL suivantes. Pour plus de détails, consulte la Référence de l’API.Cet endpoint est particulièrement utile lorsque tu as besoin de :
Découvrir toutes les pages de contenu d’un site web
Analyser la structure et la hiérarchie du site
Préparer les URL pour un traitement par lots
Décider quelles URL spécifiques extraire
Pour un contrôle plus précis des URL retournées, tu peux utiliser les paramètres include_urls et exclude_urls.
Disons que depuis www.brex.com tu veux extraire toutes les URL qui ont les chemins après /product/ par exemple https://www.brex.com/product/api/no-code mais aussi inclure www.brex.com/product.
Tu peux utiliser le code suivant :
from olostep import Olostepclient = Olostep(api_key="YOUR_REAL_KEY")sitemap = client.maps.create( url="https://www.brex.com/", include_urls=["/product", "/product/**"], top_n=100000,)for url in sitemap.urls(): print(url)
L’endpoint des cartes est un outil puissant pour la découverte de contenu et l’analyse de site. Il fournit une liste complète des URL d’un site web, te permettant d’extraire du contenu de pages spécifiques ou d’analyser la structure du site. Cet endpoint est particulièrement utile pour les professionnels du SEO, les spécialistes du marketing de contenu, les agents d’IA qui ont besoin d’analyser le contenu ou la structure d’un site web.