Use this file to discover all available pages before exploring further.
Über den Olostep /v1/maps Endpunkt kannst du alle URLs auf einer Website abrufen. Dies ist nützlich für die Inhaltserkennung, die Analyse der Website-Struktur (z.B. SEO) oder um zu entscheiden, welche URLs du als nächstes scrapen möchtest.
Erhalte alle URLs auf einer Website (einschließlich Sitemaps und entdeckter Links)
Verwende spezielle Muster, um Pfade einzuschließen/auszuschließen (z.B. /blog/**)
Paginierung großer Antworten mit cursor (bis zu 10MB pro Antwort)
Sende eine POST-Anfrage mit der Website-url. Optional kannst du include_urls, exclude_urls (Glob-Muster) und top_n übergeben.
from olostep import Olostepclient = Olostep(api_key="YOUR_REAL_KEY")sitemap = client.maps.create(url="https://docs.olostep.com")for url in sitemap.urls(): print(url)
Die Antwortzeit liegt normalerweise innerhalb von Sekunden, kann aber bei komplexeren Websites bis zu 120 Sekunden dauern. Es können alle URLs von einer Website extrahiert werden, sogar Backlinks und solche, die nicht in den Sitemaps vorhanden sind. Du kannst auch entscheiden, welche URL-Pfade du in die Antwort ein- oder ausschließen möchtest.Standardmäßig gibt der Endpunkt etwa 100k URLs in einem einzigen Aufruf zurück (max. 10MB). Wenn die Antwort mehr Daten enthält, gibt die API einen cursor-Parameter zurück, der für die Paginierung und das Abrufen der nachfolgenden URLs verwendet werden kann. Für weitere Details siehe die API Referenz.Dieser Endpunkt ist besonders nützlich, wenn du:
Alle Inhaltsseiten auf einer Website entdecken möchtest
Die Struktur und Hierarchie der Website analysieren möchtest
URLs für die Batch-Verarbeitung vorbereiten möchtest
Entscheiden möchtest, welche spezifischen URLs gescrapt werden sollen
Für eine feinere Kontrolle über die zurückgegebenen URLs kannst du die Parameter include_urls und exclude_urls verwenden.
Angenommen, du möchtest von www.brex.com alle URLs extrahieren, die die Pfade nach /product/ haben, z.B. https://www.brex.com/product/api/no-code, aber auch www.brex.com/product einschließen. Du kannst den folgenden Code verwenden:
from olostep import Olostepclient = Olostep(api_key="YOUR_REAL_KEY")sitemap = client.maps.create( url="https://www.brex.com/", include_urls=["/product", "/product/**"], top_n=100000,)for url in sitemap.urls(): print(url)
Der Maps-Endpunkt ist ein leistungsstarkes Werkzeug zur Inhaltserkennung und Website-Analyse. Er bietet eine umfassende Liste von URLs auf einer Website, die es dir ermöglicht, Inhalte von bestimmten Seiten zu extrahieren oder die Website-Struktur zu analysieren. Dieser Endpunkt ist besonders nützlich für SEO-Profis, Content-Marketer und KI-Agenten, die Website-Inhalte oder -Strukturen analysieren müssen.