Funktionen
Die Integration bietet 4 leistungsstarke APIs für die automatisierte Webdatenextraktion:Website scrapen
Extrahieren Sie Inhalte von jeder einzelnen URL in mehreren Formaten (Markdown, HTML, JSON, Text)
URLs im Batch scrapen
Verarbeiten Sie bis zu 100.000 URLs parallel. Perfekt für die großflächige Datenextraktion
Crawl erstellen
Entdecken und scrapen Sie autonom ganze Websites, indem Sie Links folgen
Karte erstellen
Extrahieren Sie alle URLs von einer Website zur Analyse der Seitenstruktur und Inhaltserkennung
Installation
Einrichtung
1. Paket installieren
2. Integration importieren und registrieren
In Ihrer Mastra-Konfigurationsdatei:3. API-Schlüssel konfigurieren
Setzen Sie Ihren Olostep-API-Schlüssel als Umgebungsvariable:.env-Datei:
Verfügbare APIs
Die Integration stellt 4 APIs bereit, die Ihre Mastra-Agenten verwenden können:scrapeWebsite
Extrahieren Sie Inhalte von einer einzelnen URL. Unterstützt mehrere Formate und JavaScript-Rendering. Anwendungsfälle:- Überwachen Sie bestimmte Seiten auf Änderungen
- Extrahieren Sie Produktinformationen von E-Commerce-Seiten
- Sammeln Sie Daten aus Nachrichtenartikeln oder Blogbeiträgen
- Inhalte für Content-Aggregation abrufen
Ihr Olostep-API-Schlüssel
Website-URL zum Scrapen (muss http:// oder https:// enthalten)
Ausgabeformate: [‘html’, ‘markdown’, ‘json’, ‘text’]
Ländercode für standortspezifische Inhalte (z.B. “US”, “GB”, “CA”)
Wartezeit in Millisekunden für JavaScript-Rendering (0-10000)
Optionaler Parser-ID für spezialisierte Extraktion (z.B. “@olostep/amazon-product”)
id- Scrape-IDurl_to_scrape- Gescrapte URLresult.markdown_content- Markdown-Inhaltresult.html_content- HTML-Inhaltresult.json_content- JSON-Inhaltresult.text_content- Textinhaltresult.screenshot_hosted_url- Screenshot-URL (falls verfügbar)result.markdown_hosted_url- Gehostete Markdown-URLobject- Objekttyp (“scrape”)created- Unix-Zeitstempel
batchScrape
Verarbeiten Sie mehrere URLs parallel (bis zu 100.000 auf einmal). Perfekt für die großflächige Datenextraktion. Anwendungsfälle:- Scrapen Sie gesamte Produktkataloge
- Extrahieren Sie Daten aus mehreren Suchergebnissen
- Verarbeiten Sie Listen von URLs aus Tabellenkalkulationen
- Massenhafte Inhaltsextraktion
Ihr Olostep-API-Schlüssel
Array von Objekten mit
url und optionalen custom_id FeldernBeispiel: [{"url":"https://example.com","custom_id":"site1"}]Ausgabeformate für alle URLs
Ländercode für standortspezifisches Scraping
Wartezeit in Millisekunden für JavaScript-Rendering
Optionaler Parser-ID für spezialisierte Extraktion
batch_id- Batch-ID (verwenden Sie diese, um Ergebnisse später abzurufen)status- Verarbeitungsstatusobject- Objekttyp (“batch”)
createCrawl
Entdecken und scrapen Sie autonom ganze Websites, indem Sie Links folgen. Perfekt für Dokumentationsseiten, Blogs und Inhaltsrepositorien. Anwendungsfälle:- Crawlen und archivieren Sie gesamte Dokumentationsseiten
- Extrahieren Sie alle Blogbeiträge von einer Website
- Erstellen Sie Wissensbasen aus Webinhalten
- Überwachen Sie Änderungen in der Website-Struktur
Ihr Olostep-API-Schlüssel
Start-URL für das Crawlen (muss http:// oder https:// enthalten)
Maximale Anzahl der zu crawlenden Seiten
Ob Links auf Seiten gefolgt werden sollen
Format für gescrapten Inhalt
Optionaler Ländercode für standortspezifisches Crawlen
Optionaler Parser-ID für spezialisierte Inhaltsextraktion
id- Crawl-ID (verwenden Sie diese, um Ergebnisse später abzurufen)object- Objekttyp (“crawl”)status- Crawl-Statuscreated- Unix-Zeitstempel
createMap
Extrahieren Sie alle URLs von einer Website zur Inhaltserkennung und Analyse der Seitenstruktur. Anwendungsfälle:- Erstellen Sie Sitemaps und Diagramme der Seitenstruktur
- Entdecken Sie alle Seiten vor dem Batch-Scraping
- Finden Sie defekte oder fehlende Seiten
- SEO-Audits und Analysen
Ihr Olostep-API-Schlüssel
Website-URL zum Extrahieren von Links (muss http:// oder https:// enthalten)
Optionaler Suchbegriff zum Filtern von URLs (z.B. “blog”)
Begrenzen Sie die Anzahl der zurückgegebenen URLs
Glob-Muster zur Einbeziehung spezifischer Pfade (z.B. [“/blog/**”])
Glob-Muster zum Ausschluss spezifischer Pfade (z.B. [“/admin/**”])
id- Map-IDobject- Objekttyp (“map”)url- Website-URLtotal_urls- Gesamtanzahl gefundener URLsurls- Array der entdeckten URLs
Verwendung mit Agenten
Einfaches Agentenbeispiel
Erstellen Sie einen Agenten, der Websites scrapen kann:Agenten-Workflow-Beispiel
Erstellen Sie einen Forschungs-Workflow, der Inhalte entdeckt und scrapt:Beliebte Anwendungsfälle
Forschungsagent
Erstellen Sie einen Agenten, der autonom Themen recherchiert:Multi-Source-Forschung
Multi-Source-Forschung
Workflow:
- Benutzer fragt: “Forschung zu KI-Trends”
- Agent verwendet
createMap, um relevante Seiten zu entdecken - Agent verwendet
batchScrape, um Inhalte zu extrahieren - Agent analysiert und fasst die Ergebnisse zusammen
- Gibt strukturierten Forschungsbericht zurück
Wettbewerbsüberwachung
Wettbewerbsüberwachung
Workflow:
- Tägliche Überwachung planen
- Verwenden Sie
scrapeWebsite, um Wettbewerberseiten zu überprüfen - Vergleichen Sie mit vorherigen Daten
- Benachrichtigung bei wesentlichen Änderungen
- Wöchentliche Berichte erstellen
Content-Aggregation
Content-Aggregation
Workflow:
- Verwenden Sie
createCrawl, um alle Blogbeiträge zu entdecken - Verwenden Sie
batchScrape, um Inhalte zu extrahieren - Verarbeiten Sie mit KI, um Schlüsselthemen zu extrahieren
- In Wissensdatenbank speichern
- Content-Kalender erstellen
E-Commerce-Intelligenz
Produkte und Preise überwachen:SEO-Analyse
Website-Struktur und Inhalte analysieren:Spezialisierte Parser
Olostep bietet vorgefertigte Parser für beliebte Websites. Verwenden Sie sie mit demparser-Parameter:
Google-Suche
@olostep/google-searchExtrahieren: Suchergebnisse, Titel, Snippets, URLsGoogle Maps
@olostep/google-mapsExtrahieren: Geschäftsinformationen, Bewertungen, Bewertungen, StandortVerwendung von Parsern
Fügen Sie die Parser-ID demparser-Parameter hinzu:
Best Practices
Verwenden Sie Batch-Verarbeitung für mehrere URLs
Verwenden Sie Batch-Verarbeitung für mehrere URLs
Wenn Sie mehr als 3-5 URLs scrapen, verwenden Sie
batchScrape anstelle von mehreren scrapeWebsite-Aufrufen. Die Batch-Verarbeitung ist:- Viel schneller (parallele Verarbeitung)
- Kostengünstiger
- Einfacher zu verwalten
- Besser für Ratenlimits
Setzen Sie geeignete Wartezeiten
Setzen Sie geeignete Wartezeiten
Für JavaScript-lastige Websites verwenden Sie den
wait_before_scraping-Parameter:- Einfache Websites: 0-1000ms
- Dynamische Websites: 2000-3000ms
- Schweres JavaScript: 5000-8000ms
Verwenden Sie spezialisierte Parser
Verwenden Sie spezialisierte Parser
Für beliebte Websites (Amazon, LinkedIn, Google) verwenden Sie vorgefertigte Parser:
- Erhalten Sie automatisch strukturierte Daten
- Zuverlässigere Extraktion
- Kein Bedarf an benutzerdefiniertem Parsing
- Von Olostep gewartet
Asynchrone Operationen handhaben
Asynchrone Operationen handhaben
Batch-, Crawl- und Map-Operationen sind asynchron:
- Speichern Sie die zurückgegebene ID (batch_id, crawl_id, map_id)
- Polling auf Abschluss oder Verwendung von Webhooks
- Separate Workflows für den Abruf einrichten
Fehlerbehandlung
Fehlerbehandlung
Umgeben Sie API-Aufrufe immer mit try-catch-Blöcken:
Ratenbegrenzung
Ratenbegrenzung
Achten Sie auf Ratenlimits:
- Verteilen Sie Anfragen mit Verzögerungen
- Verwenden Sie Batch-Verarbeitung, wenn möglich
- Überwachen Sie die Nutzung im Olostep-Dashboard
- Plan bei Bedarf upgraden
Komplettes Beispiel
Hier ist ein vollständiges Beispiel für den Aufbau eines Forschungsagenten:Fehlerbehebung
Authentifizierung fehlgeschlagen
Authentifizierung fehlgeschlagen
Fehler: “Ungültiger API-Schlüssel”Lösungen:
- Überprüfen Sie den API-Schlüssel vom Dashboard
- Stellen Sie sicher, dass der API-Schlüssel als Umgebungsvariable gesetzt ist
- Überprüfen Sie, ob der API-Schlüssel aktiv ist
- Überprüfen Sie auf zusätzliche Leerzeichen im API-Schlüssel
API nicht gefunden
API nicht gefunden
Fehler: “API nicht gefunden” oder “Integration nicht registriert”Lösungen:
- Stellen Sie sicher, dass
registerApis()nach der Erstellung der Integration aufgerufen wird - Überprüfen Sie, ob die Integration zur Mastra-Konfiguration hinzugefügt wurde
- Überprüfen Sie, ob der Integrationsname ‘olostep’ ist
- Starten Sie den Mastra-Server nach Änderungen neu
Scrape liefert leere Inhalte
Scrape liefert leere Inhalte
Fehler: Inhaltsfelder sind leerLösungen:
- Erhöhen Sie die
wait_before_scraping-Zeit - Überprüfen Sie, ob die Website eine Anmeldung erfordert
- Versuchen Sie ein anderes Format (HTML vs. Markdown)
- Überprüfen Sie, ob die URL zugänglich ist
- Überprüfen Sie, ob die Website automatisierten Zugriff blockiert
Ratenlimit überschritten
Ratenlimit überschritten
Fehler: “Ratenlimit überschritten”Lösungen:
- Verteilen Sie Anfragen mit Verzögerungen
- Verwenden Sie Batch-Verarbeitung anstelle von einzelnen Scrapes
- Planen Sie ein Upgrade Ihres Olostep-Plans
- Überprüfen Sie das Ratenlimit im Dashboard
TypeScript-Fehler
TypeScript-Fehler
Fehler: Modul nicht gefunden oder TypfehlerLösungen:
- Stellen Sie sicher, dass
@mastra/coreinstalliert ist - Überprüfen Sie die Kompatibilität der TypeScript-Version
- Überprüfen Sie, ob alle Abhängigkeiten installiert sind
- Neu bauen:
npm run build
Preisgestaltung
Olostep berechnet basierend auf der API-Nutzung, unabhängig von Mastra:- Scrapes: Bezahlung pro Scrape
- Batches: Bezahlung pro URL im Batch
- Crawls: Bezahlung pro gecrawlter Seite
- Maps: Bezahlung pro Kartenoperation
Support
Benötigen Sie Hilfe bei der Mastra-Integration?Dokumentation
Durchsuchen Sie die vollständigen API-Dokumente
Support-E-Mail
E-Mail: info@olostep.com
Mastra-Dokumente
Erfahren Sie mehr über das Mastra-Framework
Statusseite
Überprüfen Sie den API-Status
Verwandte Ressourcen
Scrapes-API
Erfahren Sie mehr über den Scrapes-Endpunkt
Batches-API
Erfahren Sie mehr über den Batches-Endpunkt
Crawls-API
Erfahren Sie mehr über den Crawls-Endpunkt
Maps-API
Erfahren Sie mehr über den Maps-Endpunkt
Zapier-Integration
Automatisieren Sie mit Zapier-Workflows
LangChain-Integration
Erstellen Sie KI-Agenten mit LangChain
Erste Schritte
Bereit, KI-Agenten mit Web-Scraping-Fähigkeiten zu erstellen?Paket installieren
Installieren Sie @olostep/mastra-tools von npm