Funktionen
Die Integration bietet 4 leistungsstarke APIs für die automatisierte Web-Datenextraktion:Website scrapen
Extrahiere Inhalte von jeder einzelnen URL in mehreren Formaten (Markdown, HTML, JSON, Text)
URLs im Batch scrapen
Verarbeite bis zu 100.000 URLs parallel. Perfekt für die groß angelegte Datenextraktion
Crawl erstellen
Entdecke und scrape ganze Websites autonom, indem du Links folgst
Karte erstellen
Extrahiere alle URLs von einer Website zur Analyse der Seitenstruktur und Inhaltserkennung
Installation
Einrichtung
1. Paket installieren
2. Integration importieren und registrieren
In deiner Mastra-Konfigurationsdatei:3. API-Schlüssel konfigurieren
Setze deinen Olostep-API-Schlüssel als Umgebungsvariable:.env-Datei:
Verfügbare APIs
Die Integration stellt 4 APIs bereit, die deine Mastra-Agenten nutzen können:scrapeWebsite
Extrahiere Inhalte von einer einzelnen URL. Unterstützt mehrere Formate und JavaScript-Rendering. Anwendungsfälle:- Überwache spezifische Seiten auf Änderungen
- Extrahiere Produktinformationen von E-Commerce-Seiten
- Sammle Daten aus Nachrichtenartikeln oder Blogbeiträgen
- Ziehe Inhalte für Inhaltsaggregation
Dein Olostep-API-Schlüssel
Website-URL zum Scrapen (muss http:// oder https:// enthalten)
Ausgabeformate: [‘html’, ‘markdown’, ‘json’, ‘text’]
Ländercode für ortsspezifische Inhalte (z.B. “US”, “GB”, “CA”)
Wartezeit in Millisekunden für JavaScript-Rendering (0-10000)
Optionaler Parser-ID für spezialisierte Extraktion (z.B. “@olostep/amazon-product”)
id- Scrape-IDurl_to_scrape- Gescrapte URLresult.markdown_content- Markdown-Inhaltresult.html_content- HTML-Inhaltresult.json_content- JSON-Inhaltresult.text_content- Textinhaltresult.screenshot_hosted_url- Screenshot-URL (falls verfügbar)result.markdown_hosted_url- Gehostete Markdown-URLobject- Objekttyp (“scrape”)created- Unix-Zeitstempel
batchScrape
Verarbeite mehrere URLs parallel (bis zu 100.000 auf einmal). Perfekt für die groß angelegte Datenextraktion. Anwendungsfälle:- Scrape ganze Produktkataloge
- Extrahiere Daten aus mehreren Suchergebnissen
- Verarbeite Listen von URLs aus Tabellen
- Massenhafte Inhaltsauszüge
Dein Olostep-API-Schlüssel
Array von Objekten mit
url und optionalen custom_id FeldernBeispiel: [{"url":"https://example.com","custom_id":"site1"}]Ausgabeformate für alle URLs
Ländercode für ortsspezifisches Scraping
Wartezeit in Millisekunden für JavaScript-Rendering
Optionaler Parser-ID für spezialisierte Extraktion
batch_id- Batch-ID (verwende dies, um Ergebnisse später abzurufen)status- Verarbeitungsstatusobject- Objekttyp (“batch”)
createCrawl
Entdecke und scrape ganze Websites autonom, indem du Links folgst. Perfekt für Dokumentationsseiten, Blogs und Inhaltsrepositorien. Anwendungsfälle:- Crawle und archiviere ganze Dokumentationsseiten
- Extrahiere alle Blogbeiträge von einer Website
- Baue Wissensdatenbanken aus Webinhalten
- Überwache Änderungen in der Website-Struktur
Dein Olostep-API-Schlüssel
Start-URL für den Crawl (muss http:// oder https:// enthalten)
Maximale Anzahl von Seiten, die gecrawlt werden sollen
Ob Links auf Seiten gefolgt werden sollen
Format für gescrapte Inhalte
Optionaler Ländercode für ortsspezifisches Crawling
Optionaler Parser-ID für spezialisierte Inhaltsextraktion
id- Crawl-ID (verwende dies, um Ergebnisse später abzurufen)object- Objekttyp (“crawl”)status- Crawl-Statuscreated- Unix-Zeitstempel
createMap
Extrahiere alle URLs von einer Website zur Inhaltserkennung und Analyse der Seitenstruktur. Anwendungsfälle:- Erstelle Sitemaps und Diagramme der Seitenstruktur
- Entdecke alle Seiten vor dem Batch-Scraping
- Finde fehlerhafte oder fehlende Seiten
- SEO-Audits und Analysen
Dein Olostep-API-Schlüssel
Website-URL, von der Links extrahiert werden sollen (muss http:// oder https:// enthalten)
Optionale Suchanfrage zur Filterung von URLs (z.B. “blog”)
Begrenze die Anzahl der zurückgegebenen URLs
Glob-Muster, um spezifische Pfade einzuschließen (z.B. [“/blog/**”])
Glob-Muster, um spezifische Pfade auszuschließen (z.B. [“/admin/**”])
id- Map-IDobject- Objekttyp (“map”)url- Website-URLtotal_urls- Gesamtanzahl gefundener URLsurls- Array der entdeckten URLs
Verwendung mit Agenten
Einfaches Agentenbeispiel
Erstelle einen Agenten, der Websites scrapen kann:Agenten-Workflow-Beispiel
Baue einen Forschungs-Workflow, der Inhalte entdeckt und scrapt:Beliebte Anwendungsfälle
Forschungsagent
Baue einen Agenten, der autonom Themen recherchiert:Multi-Source Research
Multi-Source Research
Workflow:
- Benutzer fragt: “Recherchiere KI-Trends”
- Agent verwendet
createMap, um relevante Seiten zu entdecken - Agent verwendet
batchScrape, um Inhalte zu extrahieren - Agent analysiert und fasst die Ergebnisse zusammen
- Gibt strukturierten Forschungsbericht zurück
Wettbewerbsüberwachung
Wettbewerbsüberwachung
Workflow:
- Tägliche Überwachung planen
- Verwende
scrapeWebsite, um Wettbewerbsseiten zu überprüfen - Vergleiche mit vorherigen Daten
- Alarmiere bei signifikanten Änderungen
- Erstelle wöchentliche Berichte
Inhaltsaggregation
Inhaltsaggregation
Workflow:
- Verwende
createCrawl, um alle Blogbeiträge zu entdecken - Verwende
batchScrape, um Inhalte zu extrahieren - Verarbeite mit KI, um Schlüsselthemen zu extrahieren
- Speichere in Wissensdatenbank
- Erstelle Inhaltskalender
E-Commerce-Intelligenz
Überwache Produkte und Preise:SEO-Analyse
Analysiere Website-Struktur und Inhalte:Spezialisierte Parser
Olostep bietet vorgefertigte Parser für beliebte Websites. Verwende sie mit demparser-Parameter:
Google-Suche
@olostep/google-searchExtrahiere: Suchergebnisse, Titel, Snippets, URLsGoogle Maps
@olostep/google-mapsExtrahiere: Geschäftsinformationen, Bewertungen, Bewertungen, StandortVerwendung von Parsern
Füge die Parser-ID zumparser-Parameter hinzu:
Best Practices
Verwende Batch-Verarbeitung für mehrere URLs
Verwende Batch-Verarbeitung für mehrere URLs
Wenn du mehr als 3-5 URLs scrapen möchtest, verwende
batchScrape anstelle von mehreren scrapeWebsite-Aufrufen. Batch-Verarbeitung ist:- Viel schneller (parallele Verarbeitung)
- Kostengünstiger
- Einfacher zu verwalten
- Besser für Ratenlimits
Setze angemessene Wartezeiten
Setze angemessene Wartezeiten
Für JavaScript-lastige Seiten verwende den
wait_before_scraping-Parameter:- Einfache Seiten: 0-1000ms
- Dynamische Seiten: 2000-3000ms
- Schweres JavaScript: 5000-8000ms
Verwende spezialisierte Parser
Verwende spezialisierte Parser
Für beliebte Websites (Amazon, LinkedIn, Google) verwende vorgefertigte Parser:
- Erhalte automatisch strukturierte Daten
- Zuverlässigere Extraktion
- Kein Bedarf an benutzerdefiniertem Parsing
- Von Olostep gewartet
Asynchrone Operationen handhaben
Asynchrone Operationen handhaben
Batch-, Crawl- und Map-Operationen sind asynchron:
- Speichere die zurückgegebene ID (batch_id, crawl_id, map_id)
- Poll für Abschluss oder verwende Webhooks
- Richte separate Workflows für den Abruf ein
Fehlerbehandlung
Fehlerbehandlung
Umfasse API-Aufrufe immer mit try-catch-Blöcken:
Ratenbegrenzung
Ratenbegrenzung
Sei dir der Ratenlimits bewusst:
- Verteile Anfragen mit Verzögerungen
- Verwende Batch-Verarbeitung, wenn möglich
- Überwache die Nutzung im Olostep-Dashboard
- Upgrade des Plans bei Bedarf
Komplettes Beispiel
Hier ist ein komplettes Beispiel zum Erstellen eines Forschungsagenten:Fehlerbehebung
Authentifizierung fehlgeschlagen
Authentifizierung fehlgeschlagen
Fehler: “Ungültiger API-Schlüssel”Lösungen:
- Überprüfe den API-Schlüssel vom Dashboard
- Stelle sicher, dass der API-Schlüssel als Umgebungsvariable gesetzt ist
- Verifiziere, dass der API-Schlüssel aktiv ist
- Überprüfe auf zusätzliche Leerzeichen im API-Schlüssel
API nicht gefunden
API nicht gefunden
Fehler: “API nicht gefunden” oder “Integration nicht registriert”Lösungen:
- Stelle sicher, dass
registerApis()nach der Erstellung der Integration aufgerufen wird - Verifiziere, dass die Integration zur Mastra-Konfiguration hinzugefügt wurde
- Überprüfe, dass der Integrationsname ‘olostep’ ist
- Starte den Mastra-Server nach Änderungen neu
Scrape liefert leere Inhalte zurück
Scrape liefert leere Inhalte zurück
Fehler: Inhaltsfelder sind leerLösungen:
- Erhöhe die
wait_before_scraping-Zeit - Überprüfe, ob die Website eine Anmeldung erfordert
- Versuche ein anderes Format (HTML vs Markdown)
- Verifiziere, dass die URL zugänglich ist
- Überprüfe, ob die Seite automatisierten Zugriff blockiert
Ratenlimit überschritten
Ratenlimit überschritten
Fehler: “Ratenlimit überschritten”Lösungen:
- Verteile Anfragen mit Verzögerungen
- Verwende Batch-Verarbeitung anstelle von einzelnen Scrapes
- Upgrade deines Olostep-Plans
- Überprüfe das Ratenlimit im Dashboard
TypeScript-Fehler
TypeScript-Fehler
Fehler: Modul nicht gefunden oder TypfehlerLösungen:
- Stelle sicher, dass
@mastra/coreinstalliert ist - Überprüfe die Kompatibilität der TypeScript-Version
- Verifiziere, dass alle Abhängigkeiten installiert sind
- Baue neu:
npm run build
Preisgestaltung
Olostep berechnet die API-Nutzung unabhängig von Mastra:- Scrapes: Bezahlung pro Scrape
- Batches: Bezahlung pro URL im Batch
- Crawls: Bezahlung pro gecrawlter Seite
- Maps: Bezahlung pro Map-Operation
Support
Brauchst du Hilfe bei der Mastra-Integration?Dokumentation
Durchsuche die vollständigen API-Dokumente
Support-E-Mail
E-Mail: info@olostep.com
Mastra-Dokumentation
Erfahre mehr über das Mastra-Framework
Verwandte Ressourcen
Scrapes API
Erfahre mehr über den Scrapes-Endpunkt
Batches API
Erfahre mehr über den Batches-Endpunkt
Crawls API
Erfahre mehr über den Crawls-Endpunkt
Maps API
Erfahre mehr über den Maps-Endpunkt
Zapier-Integration
Automatisiere mit Zapier-Workflows
LangChain-Integration
Baue KI-Agenten mit LangChain
Mastra-Website
Mastra-Plattform
Erste Schritte
Bereit, KI-Agenten mit Web-Scraping-Fähigkeiten zu bauen?Paket installieren
Installiere @olostep/mastra-tools von npm