Über den OlostepDocumentation Index
Fetch the complete documentation index at: https://docs.olostep.com/llms.txt
Use this file to discover all available pages before exploring further.
/v1/scrapes Endpunkt kannst du LLM-freundliches Markdown, HTML, Text, Screenshots oder strukturiertes JSON in Echtzeit aus jeder URL extrahieren.
- Gibt sauberes Markdown, strukturierte Daten, Screenshots oder HTML aus
- Extrahiere JSON über Parsers oder LLM extraction
- Handhabt dynamische Inhalte: JS-gerenderte Seiten, Login-Flows über Aktionen, PDFs
Eine URL scrapen
Nutze den/v1/scrapes Endpunkt, um eine einzelne URL zu scrapen und Ausgabeformate zu wählen.
Installation
Verwendung
Du kannst den Endpunkt nutzen, um eine einzelne URL zu scrapen und Ausgabeformate zu wählen. Die obligatorischen Parameter sindurl_to_scrape und formats.
Einige andere häufige Parameter sind wait_before_scraping (in Millisekunden), remove_css_selectors (Standard, keine oder ein Array von Selektoren) und country.
Antwort
Die API gibt einscrape Objekt als Antwort zurück.
Das scrape Objekt hat einige Eigenschaften wie id und result.
Das result Objekt hat die folgenden Felder (je nach formats Parameter können einige null sein):
html_content: der HTML-Inhalt der Seite. Übergebeformats: ["html"], um dies zu erhalten.markdown_content: der MD-Inhalt der Seite. Übergebeformats: ["markdown"], um dies zu erhalten.text_content: der Textinhalt der Seite. Übergebeformats: ["text"], um dies zu erhalten.json_content: der JSON-Inhalt der Seite. Übergebeformats: ["json"], um dies zu erhalten und auch einenparseroderllm_extractParameter bereitzustellen.screenshot_hosted_url: die gehostete URL des Screenshots.html_hosted_url: die gehostete URL des HTML-Inhaltsmarkdown_hosted_url: die gehostete URL des Markdown-Inhaltsjson_hosted_url: die gehostete URL des JSON-Inhaltstext_hosted_url: die gehostete URL des Textinhaltslinks_on_page: die Links auf der Seitepage_metadata: die Metadaten der Seite
Scrape-Formate
Wähle ein oder mehrere Ausgabeformate überformats:
markdown: LLM-freundliches Markdownhtml: bereinigtes HTMLtext: Klartextjson: strukturiertes Ausgabeformat (über Parser oder llm_extract)raw_pdf: rohe PDF-Bytes, die zu einer gehosteten URL extrahiert werdenscreenshot: über Aktionen festgelegt, um einen Screenshot zu erfassen und eine gehostete URL zurückzugeben
result als *_content Felder und eine *_hosted_url zurückgegeben.
Strukturierte Daten extrahieren
Du kannst strukturiertes JSON auf zwei Arten extrahieren: mit Parsers oder LLM-Extraktion.Einen Parser verwenden (empfohlen für Skalierung)
Definiereformats: ["json"] und gib eine Parser id an.
LLM-Extraktion verwenden (Schema und/oder Prompt)
Gibllm_extract mit einem JSON-Schema (schema) und/oder einer natürlichen Sprachinstruktion (prompt) an. Du kannst beide Parameter übergeben, aber wenn beide bereitgestellt werden, hat schema Vorrang.
Wenn du stattdessen nur einen prompt übergibst, extrahiert das LLM die Daten basierend auf dem Prompt und entscheidet die Datenstruktur selbst.
result.json_content gibt ein stringifiziertes JSON zurück. Parsen es in deinem Code, wenn du ein Objekt benötigst.
Mit der Seite durch Aktionen interagieren
Führe Aktionen vor dem Scrapen aus, um mit dynamischen Seiten zu interagieren. Unterstützte Aktionen:waitmitmillisecondsclickmitselectorfill_inputmitselectorundvaluescrollmitdirectionundamount
wait vor/nach anderen Aktionen zu verwenden, um der Seite Zeit zum Laden zu geben.
Beispiel
markdown_content).
Anwendungsfälle
Nachfolgend sind einige praktische Anwendungen von Kunden, die den/scrapes Endpunkt nutzen.
Inhaltsanalyse & Forschung
- Wettbewerbsanalyse: Extrahiere Produktdetails, Preise und Funktionen von Wettbewerber-Websites
- Marktforschung: Analysiere Landingpages, Produktbeschreibungen und Kundenbewertungen
- Akademische Forschung: Sammle spezifische Daten aus wissenschaftlichen Publikationen oder Forschungsportalen
- Rechtsdokumentation: Extrahiere Fallstudien, Vorschriften oder rechtliche Präzedenzfälle von offiziellen Websites
E-Commerce & Einzelhandel
- Dynamische Preisstrategien: Erhalte Echtzeit-Produktpreise von konkurrierenden Geschäften
- Produktinformationsmanagement: Extrahiere detaillierte Spezifikationen und Beschreibungen
- Bestands-/Inventarüberwachung: Überprüfe die Produktverfügbarkeit bei anderen Einzelhändlern
- Rezensionsanalyse: Sammle Verbraucherfeedback und -stimmung für spezifische Produkte
Marketing & Inhaltserstellung
- Inhaltskuratierung: Extrahiere relevante Artikel und Blogbeiträge für Newsletter
- SEO-Analyse: Untersuche die Keyword-Nutzung, Meta-Beschreibungen und Seitenstruktur von Wettbewerbern
- Lead-Generierung: Extrahiere Kontaktinformationen aus Unternehmensverzeichnissen oder Firmenwebseiten
- Influencer-Forschung: Sammle Engagement-Metriken und Inhaltsstile von Influencer-Profilen
- Personalisierte Social-Media-Generierung: Erstelle KI-gestützte Social-Media-Marketingkampagnen durch Analyse von Kundenwebsites
Datenanwendungen
- AI-Trainingsdatensammlung: Sammle spezifische Beispiele für maschinelle Lernmodelle
- Erstellung einer benutzerdefinierten Wissensdatenbank: Extrahiere Dokumentationen oder Anleitungen von Software-Websites
- Historische Datenarchive: Bewahre Website-Inhalte zu bestimmten Zeitpunkten
- Strukturierte Datenextraktion: Transformiere Webinhalte in formatierte Datensätze zur Analyse
Überwachung & Benachrichtigungen
- Überwachung der Einhaltung von Vorschriften: Verfolge Änderungen auf rechtlichen oder regulatorischen Websites
- Krisenmanagement: Überwache Nachrichtenseiten auf Erwähnungen bestimmter Ereignisse oder Organisationen
- Ereignisverfolgung: Extrahiere Details zu bevorstehenden Veranstaltungen von Veranstaltungsorten oder Organisatoren-Websites
- Überwachung des Dienststatus: Überprüfe Dienststatusseiten für spezifische Plattformen oder Tools
Veröffentlichung & Medien
- Nachrichtenaggregation: Extrahiere aktuelle Nachrichten aus offiziellen Quellen
- Medienüberwachung: Verfolge spezifische Themen auf Nachrichtenseiten
- Inhaltsverifizierung: Extrahiere Informationen, um Behauptungen oder Aussagen zu überprüfen
- Multimedia-Extraktion: Sammle eingebettete Videos, Bilder oder Audiodateien für Medienbibliotheken
Finanzanwendungen
- Investitionsforschung: Extrahiere Finanzberichte oder Jahresberichte von Unternehmenswebsites
- Wirtschaftsindikatoren: Sammle Wirtschaftsdaten von Regierungs- oder Finanzinstitutions-Websites
- Kryptowährungsdaten: Extrahiere Echtzeit-Preise und Marktkapitalisierungsinformationen
- Analyse von Finanznachrichten: Überwache Finanznachrichtenseiten auf spezifische Marktsignale
Technische Anwendungen
- API-Dokumentationsextraktion: Sammle technische Dokumentationen zur Referenz
- Integrationstests: Extrahiere Website-Elemente, um Drittanbieter-Integrationen zu überprüfen
- Barrierefreiheitstests: Analysiere die Website-Struktur auf Einhaltung von Barrierefreiheitsstandards
- Erstellung von Webarchiven: Erfasse vollständige Website-Inhalte zur historischen Bewahrung
Integrationsszenarien
- CRM-Systeme: Bereichere Kundenprofile mit Daten von Unternehmenswebsites oder LinkedIn
- Content-Management-Systeme: Importiere relevante externe Inhalte
- Business-Intelligence-Tools: Ergänze interne Daten mit externen Marktinformationen
- Projektmanagement-Software: Extrahiere Spezifikationen oder Anforderungen von Kundenwebsites
- Benutzerdefinierte Dashboards: Zeige extrahierte Daten neben internen Metriken an
Fehlerbehandlung
Alle Fehler folgen einem gemeinsamen Umschlagformat. Überprüfeerror.type und error.code, um programmatisch zu verzweigen:
| HTTP | error.type | error.code | Bedeutung |
|---|---|---|---|
| 400 | invalid_request_error | dns_resolution_failed | Die Domain existiert nicht oder die URL enthält einen Tippfehler. |
| 400 | invalid_request_error | invalid_url | Die URL ist fehlerhaft. |
| 502 | invalid_request_error | tls_error | Die Website hat ein ungültiges oder inkompatibles TLS/SSL-Zertifikat. error.detail enthält den Low-Level-SSL-Code. |
| 504 | request_timeout | scrape_poll_timeout | Das Scraping wurde nicht innerhalb des ~55-Sekunden-Wartebudgets abgeschlossen. |
DNS-Fehler (400)
Die Domain wird nicht aufgelöst. Überprüfe die URL auf Tippfehler.TLS/SSL-Fehler (502)
Die Zielwebsite hat eine fehlerhafte oder inkompatible HTTPS-Konfiguration.error.detail liefert den spezifischen SSL-Fehlercode zur Diagnose; error.code ist immer tls_error.