Funktionen
Die Integration bietet Zugriff auf alle 5 Olostep API-Funktionen:Scrapes
Inhalte von jeder einzelnen URL in mehreren Formaten extrahieren (Markdown, HTML, JSON, Text)
Batches
Bis zu 10.000 URLs parallel verarbeiten. Batch-Jobs werden in 5-8 Minuten abgeschlossen
Answers
KI-gesteuerte Websuche mit natürlichen Sprachabfragen und strukturiertem Output
Maps
Alle URLs von einer Website für die Analyse der Seitenstruktur extrahieren
Crawls
Autonomes Entdecken und Scrapen ganzer Websites durch Verfolgen von Links
Installation
Einrichtung
Setze deinen Olostep API-Schlüssel als Umgebungsvariable:Verfügbare Tools
scrape_website
Inhalte von einer einzelnen URL extrahieren. Unterstützt mehrere Formate und JavaScript-Rendering.Website-URL zum Scrapen (muss http:// oder https:// enthalten)
Ausgabeformat:
markdown, html, json oder textLändercode für ortsspezifische Inhalte (z.B. “US”, “GB”, “CA”)
Wartezeit in Millisekunden für JavaScript-Rendering (0-10000)
Optionaler Parser-ID für spezialisierte Extraktion (z.B. “@olostep/amazon-product”)
scrape_batch
Mehrere URLs parallel verarbeiten (bis zu 10.000 gleichzeitig).Liste der zu scrapenden URLs
Ausgabeformat für alle URLs:
markdown, html, json oder textLändercode für ortsspezifische Inhalte
Wartezeit in Millisekunden für JavaScript-Rendering
Optionaler Parser-ID für spezialisierte Extraktion
answer_question
Das Web durchsuchen und KI-gesteuerte Antworten mit Quellen erhalten. Perfekt für Datenanreicherung und Forschung.Frage oder Aufgabe, nach der gesucht werden soll
Optionales JSON-Schema-Diktat/String, das das gewünschte Ausgabeformat beschreibt
extract_urls
Alle URLs von einer Website für die Analyse der Seitenstruktur extrahieren.Website-URL, von der URLs extrahiert werden sollen
Optionale Suchabfrage zur Filterung von URLs
Begrenzung der zurückgegebenen URLs
Glob-Muster zum Einschließen (z.B. [“/blog/**”])
Glob-Muster zum Ausschließen (z.B. [“/admin/**”])
crawl_website
Autonomes Entdecken und Scrapen ganzer Websites durch Verfolgen von Links.Start-URL für das Crawlen
Maximale Anzahl von zu crawlenden Seiten
Glob-Muster zum Einschließen (z.B. [”/**”] für alle)
Glob-Muster zum Ausschließen (z.B. [“/admin/**”])
Maximale Tiefe, die von der start_url gecrawlt werden soll
Externe URLs einschließen
LangChain Agent Integration
Intelligente Agenten erstellen, die das Web durchsuchen und scrapen können:LangGraph Integration
Komplexe mehrstufige Workflows mit LangGraph erstellen:Erweiterte Anwendungsfälle
Datenanreicherung
Tabellendaten mit Webinformationen anreichern:E-Commerce-Produktscraping
Produktdaten mit spezialisierten Parsern scrapen:SEO-Audit
Gesamte Websites für SEO analysieren:Dokumentationsscraping
Dokumentation crawlen und extrahieren:Spezialisierte Parser
Olostep bietet vorgefertigte Parser für beliebte Websites:@olostep/google-search- Google-Suchergebnisse
parser-Parameter:
Fehlerbehandlung
Beste Praktiken
Batchverarbeitung für mehrere URLs verwenden
Batchverarbeitung für mehrere URLs verwenden
Wenn du mehr als 3-5 URLs scrapen möchtest, verwende
scrape_batch anstelle mehrerer scrape_website-Aufrufe. Die Batchverarbeitung ist viel schneller und kostengünstiger.Angemessene Timeouts setzen
Angemessene Timeouts setzen
Für JavaScript-lastige Seiten verwende den Parameter
wait_before_scraping (2000-5000ms ist typisch). Dies stellt sicher, dass dynamische Inhalte vollständig geladen sind.Spezialisierte Parser verwenden
Spezialisierte Parser verwenden
Für beliebte Websites (Amazon, LinkedIn, Google) verwende unsere vorgefertigten Parser, um automatisch strukturierte Daten zu erhalten.
URLs effizient filtern
URLs effizient filtern
Verwende beim Einsatz von
extract_urls oder crawl_website Glob-Muster, um sich auf relevante Seiten zu konzentrieren und unnötige Verarbeitung zu vermeiden.Rate Limits handhaben
Rate Limits handhaben
Implementiere exponentielles Backoff für Rate-Limit-Fehler. Die API behandelt die meisten Rate-Limitierungen intern automatisch.
Support
- PyPI-Paket: langchain-olostep
- Dokumentation: docs.olostep.com
- Probleme: GitHub Issues
- E-Mail: info@olostep.com
Verwandte Ressourcen
Scrapes API
Erfahre mehr über den Scrapes-Endpunkt
Batches API
Erfahre mehr über den Batches-Endpunkt
Answers API
Erfahre mehr über den Answers-Endpunkt
Maps API
Erfahre mehr über den Maps-Endpunkt
Crawls API
Erfahre mehr über den Crawls-Endpunkt
Python SDK
Erkunde das Python SDK
LangChain Website
LangChain-Plattform