Funktionen
Die Integration bietet Zugriff auf alle 5 Olostep API-Funktionen:Scrapes
Inhalte von jeder einzelnen URL in mehreren Formaten extrahieren (Markdown, HTML, JSON, Text)
Batches
Bis zu 10.000 URLs parallel verarbeiten. Batch-Jobs werden in 5-8 Minuten abgeschlossen
Answers
KI-gesteuerte Websuche mit natürlichen Sprachabfragen und strukturiertem Output
Maps
Alle URLs einer Website für die Analyse der Seitenstruktur extrahieren
Crawls
Autonomes Entdecken und Extrahieren ganzer Websites durch Verfolgen von Links
Installation
Einrichtung
Setzen Sie Ihren Olostep API-Schlüssel als Umgebungsvariable:Verfügbare Werkzeuge
scrape_website
Inhalte von einer einzelnen URL extrahieren. Unterstützt mehrere Formate und JavaScript-Rendering.Website-URL zum Extrahieren (muss http:// oder https:// enthalten)
Ausgabeformat:
markdown, html, json oder textLändercode für ortsspezifische Inhalte (z.B. “US”, “GB”, “CA”)
Wartezeit in Millisekunden für JavaScript-Rendering (0-10000)
Optionaler Parser-ID für spezialisierte Extraktion (z.B. “@olostep/amazon-product”)
scrape_batch
Mehrere URLs parallel verarbeiten (bis zu 10.000 gleichzeitig).Liste der zu extrahierenden URLs
Ausgabeformat für alle URLs:
markdown, html, json oder textLändercode für ortsspezifische Inhalte
Wartezeit in Millisekunden für JavaScript-Rendering
Optionaler Parser-ID für spezialisierte Extraktion
answer_question
Das Web durchsuchen und KI-gesteuerte Antworten mit Quellen erhalten. Perfekt für Datenanreicherung und Forschung.Frage oder Aufgabe, nach der gesucht werden soll
Optionales JSON-Schema-Diktat/String, das das gewünschte Ausgabeformat beschreibt
extract_urls
Alle URLs von einer Website für die Analyse der Seitenstruktur extrahieren.Website-URL, von der URLs extrahiert werden sollen
Optionale Suchabfrage zum Filtern von URLs
Begrenzung der Anzahl der zurückgegebenen URLs
Glob-Muster zum Einschließen (z.B. [“/blog/**”])
Glob-Muster zum Ausschließen (z.B. [“/admin/**”])
crawl_website
Autonomes Entdecken und Extrahieren ganzer Websites durch Verfolgen von Links.Start-URL für den Crawl
Maximale Anzahl der zu durchsuchenden Seiten
Glob-Muster zum Einschließen (z.B. [”/**”] für alle)
Glob-Muster zum Ausschließen (z.B. [“/admin/**”])
Maximale Tiefe zum Crawlen von der start_url aus
Externe URLs einbeziehen
LangChain-Agenten-Integration
Intelligente Agenten erstellen, die das Web durchsuchen und extrahieren können:LangGraph-Integration
Komplexe mehrstufige Workflows mit LangGraph erstellen:Erweiterte Anwendungsfälle
Datenanreicherung
Tabellendaten mit Webinformationen anreichern:E-Commerce-Produkt-Scraping
Produktdaten mit spezialisierten Parsern extrahieren:SEO-Audit
Gesamte Websites für SEO analysieren:Dokumentations-Scraping
Dokumentationen durchsuchen und extrahieren:Spezialisierte Parser
Olostep bietet vorgefertigte Parser für beliebte Websites:@olostep/google-search- Google-Suchergebnisse
parser-Parameter:
Fehlerbehandlung
Best Practices
Batch-Verarbeitung für mehrere URLs verwenden
Batch-Verarbeitung für mehrere URLs verwenden
Wenn mehr als 3-5 URLs extrahiert werden, verwenden Sie
scrape_batch anstelle mehrerer scrape_website-Aufrufe. Die Batch-Verarbeitung ist viel schneller und kostengünstiger.Angemessene Timeouts setzen
Angemessene Timeouts setzen
Für JavaScript-lastige Seiten verwenden Sie den Parameter
wait_before_scraping (2000-5000ms ist typisch). Dies stellt sicher, dass dynamische Inhalte vollständig geladen sind.Spezialisierte Parser verwenden
Spezialisierte Parser verwenden
Für beliebte Websites (Amazon, LinkedIn, Google) verwenden Sie unsere vorgefertigten Parser, um automatisch strukturierte Daten zu erhalten.
URLs effizient filtern
URLs effizient filtern
Bei der Verwendung von
extract_urls oder crawl_website verwenden Sie Glob-Muster, um sich auf relevante Seiten zu konzentrieren und unnötige Verarbeitung zu vermeiden.Rate Limits handhaben
Rate Limits handhaben
Implementieren Sie ein exponentielles Backoff für Rate-Limit-Fehler. Die API behandelt die meisten Rate-Limits intern automatisch.
Support
- PyPI-Paket: langchain-olostep
- Dokumentation: docs.olostep.com
- Probleme: GitHub Issues
- E-Mail: info@olostep.com
Verwandte Ressourcen
Scrapes API
Erfahren Sie mehr über den Scrapes-Endpunkt
Batches API
Erfahren Sie mehr über den Batches-Endpunkt
Answers API
Erfahren Sie mehr über den Answers-Endpunkt
Maps API
Erfahren Sie mehr über den Maps-Endpunkt
Crawls API
Erfahren Sie mehr über den Crawls-Endpunkt
Python SDK
Entdecken Sie das Python SDK