Passer au contenu principal
Grâce à l’endpoint Olostep /v1/maps, tu peux obtenir toutes les URLs d’un site web. Cela est utile pour la découverte de contenu, l’analyse de la structure du site (par exemple, SEO), ou pour décider quelles URLs tu souhaites scraper ensuite.
  • Obtiens toutes les URLs d’un site web (y compris les sitemaps et les liens découverts)
  • Utilise des motifs spéciaux pour inclure/exclure des chemins (par exemple, /blog/**)
  • Paginer les réponses volumineuses avec cursor (jusqu’à 10MB par réponse)
  • Limiter le volume avec top_n
Pour les détails de l’API, consulte la Référence de l’API du point de terminaison Carte.

Installation

pip install olostep

Utilisation

Envoie une requête POST avec l’url du site web. Tu peux également passer include_urls, exclude_urls (motifs globaux), et top_n.
from olostep import Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

sitemap = client.maps.create(url="https://docs.olostep.com")

for url in sitemap.urls():
    print(url)
Le temps de réponse est généralement de quelques secondes, mais peut prendre jusqu’à 120 secondes pour les sites web plus complexes. Il peut extraire toutes les URLs d’un site web, même les backlinks et celles non présentes dans les Sitemaps. Tu peux également décider des chemins d’URLs que tu souhaites inclure ou exclure de la réponse. Par défaut, l’endpoint retourne environ 100k URLs en un seul appel (10MB max). Si la réponse inclut plus de données, l’API retourne un paramètre cursor qui peut être utilisé pour la pagination et obtenir les URLs suivantes. Pour plus de détails, consulte la Référence de l’API. Cet endpoint est particulièrement utile lorsque tu as besoin de :
  • Découvrir toutes les pages de contenu d’un site web
  • Analyser la structure et la hiérarchie du site
  • Préparer les URLs pour un traitement par lots
  • Décider quelles URLs spécifiques scraper
Pour un contrôle plus précis sur les URLs retournées, tu peux utiliser les paramètres include_urls et exclude_urls.

Exemple

Disons que depuis www.brex.com tu veux extraire toutes les URLs qui ont les chemins après /product/ par exemple https://www.brex.com/product/api/no-code mais aussi inclure www.brex.com/product. Tu peux utiliser le code suivant :
from olostep import Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

sitemap = client.maps.create(
    url="https://www.brex.com/",
    include_urls=["/product", "/product/**"],
    top_n=100000,
)

for url in sitemap.urls():
    print(url)

Conclusion

L’endpoint des cartes est un outil puissant pour la découverte de contenu et l’analyse de site. Il fournit une liste complète des URLs d’un site web, te permettant d’extraire du contenu de pages spécifiques ou d’analyser la structure du site. Cet endpoint est particulièrement utile pour les professionnels du SEO, les spécialistes du marketing de contenu, les agents d’IA qui ont besoin d’analyser le contenu ou la structure d’un site web.

Tarification

La carte coûte 1 crédit. Ensuite, pour chaque tranche supplémentaire de 1000 URLs retournées dans la réponse, un crédit supplémentaire est facturé.