Zum Hauptinhalt springen
Über den Olostep /v1/maps Endpunkt kannst du alle URLs auf einer Website abrufen. Dies ist nützlich für die Inhaltserkennung, die Analyse der Seitenstruktur (z.B. SEO) oder um zu entscheiden, welche URLs du als nächstes scrapen möchtest.
  • Erhalte alle URLs auf einer Website (einschließlich Sitemaps und entdeckter Links)
  • Verwende spezielle Muster, um Pfade einzuschließen/auszuschließen (z.B. /blog/**)
  • Paginierung großer Antworten mit cursor (bis zu 10MB pro Antwort)
  • Begrenze das Volumen mit top_n
Für API-Details siehe die Map Endpoint API Referenz.

Installation

pip install olostep

Verwendung

Sende eine POST-Anfrage mit der Website-url. Optional kannst du include_urls, exclude_urls (Glob-Muster) und top_n übergeben.
from olostep import Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

sitemap = client.maps.create(url="https://docs.olostep.com")

for url in sitemap.urls():
    print(url)
Die Antwortzeit liegt normalerweise innerhalb von Sekunden, kann aber bei komplexeren Websites bis zu 120 Sekunden dauern. Es können alle URLs von einer Website extrahiert werden, sogar Backlinks und solche, die nicht in den Sitemaps vorhanden sind. Du kannst auch entscheiden, welche URL-Pfade du in die Antwort ein- oder ausschließen möchtest. Standardmäßig gibt der Endpunkt etwa 100.000 URLs in einem einzigen Aufruf zurück (max. 10MB). Wenn die Antwort mehr Daten enthält, gibt die API einen cursor-Parameter zurück, der für die Paginierung und das Abrufen der nachfolgenden URLs verwendet werden kann. Für weitere Details siehe die API Referenz. Dieser Endpunkt ist besonders nützlich, wenn du:
  • Alle Inhaltsseiten auf einer Website entdecken möchtest
  • Die Seitenstruktur und Hierarchie analysieren möchtest
  • URLs für die Batch-Verarbeitung vorbereiten möchtest
  • Entscheiden möchtest, welche spezifischen URLs gescrapt werden sollen
Für eine feinere Kontrolle über die zurückgegebenen URLs kannst du die Parameter include_urls und exclude_urls verwenden.

Beispiel

Angenommen, du möchtest von www.brex.com alle URLs extrahieren, die die Pfade nach /product/ haben, z.B. https://www.brex.com/product/api/no-code, aber auch www.brex.com/product einbeziehen. Du kannst den folgenden Code verwenden:
from olostep import Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

sitemap = client.maps.create(
    url="https://www.brex.com/",
    include_urls=["/product", "/product/**"],
    top_n=100000,
)

for url in sitemap.urls():
    print(url)

Fazit

Der Karten-Endpunkt ist ein leistungsstarkes Werkzeug für die Inhaltserkennung und Seitenanalyse. Er bietet eine umfassende Liste von URLs auf einer Website, die es dir ermöglicht, Inhalte von bestimmten Seiten zu extrahieren oder die Seitenstruktur zu analysieren. Dieser Endpunkt ist besonders nützlich für SEO-Profis, Content-Marketer und KI-Agenten, die Website-Inhalte oder -Strukturen analysieren müssen.

Preisgestaltung

Eine Karte kostet 1 Kredit. Für jede weiteren 1000 URLs, die in der Antwort zurückgegeben werden, wird ein zusätzlicher Kredit berechnet.