Scrape - Olostep Docs

Über den Olostep /v1/scrapes Endpunkt kannst du LLM-freundliches Markdown, HTML, Text, Screenshots oder strukturiertes JSON in Echtzeit aus jeder URL extrahieren.

Gibt sauberes Markdown, strukturierte Daten, Screenshots oder HTML aus
Extrahiere JSON über Parsers oder LLM extraction
Handhabt dynamische Inhalte: JS-gerenderte Seiten, Login-Flows über Aktionen, PDFs

Für API-Details siehe die Scrape Endpoint API Referenz.

Eine URL scrapen

Nutze den /v1/scrapes Endpunkt, um eine einzelne URL zu scrapen und Ausgabeformate zu wählen.

Installation

pip install olostep

Verwendung

Du kannst den Endpunkt nutzen, um eine einzelne URL zu scrapen und Ausgabeformate zu wählen. Die obligatorischen Parameter sind url_to_scrape und formats. Einige andere häufige Parameter sind wait_before_scraping (in Millisekunden), remove_css_selectors (Standard, keine oder ein Array von Selektoren) und country.

from olostep import Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

result = client.scrapes.create(
    url_to_scrape="https://en.wikipedia.org/wiki/Alexander_the_Great",
    formats=["markdown", "html"],
)

print(result.markdown_content)
print(result.html_content)

Antwort

Die API gibt ein scrape Objekt als Antwort zurück. Das scrape Objekt hat einige Eigenschaften wie id und result. Das result Objekt hat die folgenden Felder (je nach formats Parameter können einige null sein):

html_content: der HTML-Inhalt der Seite. Übergebe formats: ["html"], um dies zu erhalten.
markdown_content: der MD-Inhalt der Seite. Übergebe formats: ["markdown"], um dies zu erhalten.
text_content: der Textinhalt der Seite. Übergebe formats: ["text"], um dies zu erhalten.
json_content: der JSON-Inhalt der Seite. Übergebe formats: ["json"], um dies zu erhalten und auch einen parser oder llm_extract Parameter bereitzustellen.
screenshot_hosted_url: die gehostete URL des Screenshots.
html_hosted_url: die gehostete URL des HTML-Inhalts
markdown_hosted_url: die gehostete URL des Markdown-Inhalts
json_hosted_url: die gehostete URL des JSON-Inhalts
text_hosted_url: die gehostete URL des Textinhalts
links_on_page: die Links auf der Seite
page_metadata: die Metadaten der Seite

{
  "id": "scrape_6h89o8u1kt",
  "object": "scrape",
  "created": 1745673871,
  "metadata": {},
  "retrieve_id": "6h89o8u1kt",
  "url_to_scrape": "https://en.wikipedia.org/wiki/Alexander_the_Great",
  "result": {
    "html_content": "<html...",
    "markdown_content": "## Alexander the Great...",
    "text_content": null,
    "json_content": null,
    "screenshot_hosted_url": null,
    "html_hosted_url": "https://olostep-storage.s3.us-east-1.amazonaws.com/text_6h89o8u1kt.txt",
    "markdown_hosted_url": "https://olostep-storage.s3.us-east-1.amazonaws.com/markDown_6h89o8u1kt.txt",
    "json_hosted_url": null,
    "text_hosted_url": null,
    "links_on_page": [],
    "page_metadata": { "status_code": 200, "title": "" }
  }
}

Scrape-Formate

Wähle ein oder mehrere Ausgabeformate über formats:

markdown: LLM-freundliches Markdown
html: bereinigtes HTML
text: Klartext
json: strukturiertes Ausgabeformat (über Parser oder llm_extract)
raw_pdf: rohe PDF-Bytes, die zu einer gehosteten URL extrahiert werden
screenshot: über Aktionen festgelegt, um einen Screenshot zu erfassen und eine gehostete URL zurückzugeben

Ausgabeschlüssel werden innerhalb von result als *_content Felder und eine *_hosted_url zurückgegeben.

Strukturierte Daten extrahieren

Du kannst strukturiertes JSON auf zwei Arten extrahieren: mit Parsers oder LLM-Extraktion.

Einen Parser verwenden (empfohlen für Skalierung)

Definiere formats: ["json"] und gib eine Parser id an.

from olostep import Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

result = client.scrapes.create(
    url_to_scrape="https://www.google.com/search?q=alexander+the+great&gl=us&hl=en",
    formats=["json"],
    parser="@olostep/google-search",
)

print(result.json_content)

Olostep hat einige vorgefertigte Parser für beliebte Websites, aber du kannst auch eigene Parser über das Dashboard erstellen oder unser Team bitten, dies für dich zu tun. Parser sind selbstheilend und aktualisieren sich selbst auf die neueste Version der Website.

LLM-Extraktion verwenden (Schema und/oder Prompt)

Gib llm_extract mit einem JSON-Schema (schema) und/oder einer natürlichen Sprachinstruktion (prompt) an. Du kannst beide Parameter übergeben, aber wenn beide bereitgestellt werden, hat schema Vorrang. Wenn du stattdessen nur einen prompt übergibst, extrahiert das LLM die Daten basierend auf dem Prompt und entscheidet die Datenstruktur selbst.

from olostep import LLMExtract, Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

result = client.scrapes.create(
    url_to_scrape="https://www.berklee.edu/events/stefano-marchese-friends",
    formats=["markdown", "json"],
    llm_extract=LLMExtract(
        schema={
            "event": {
                "type": "object",
                "properties": {
                    "title": {"type": "string"},
                    "date": {"type": "string"},
                    "description": {"type": "string"},
                    "venue": {"type": "string"},
                    "address": {"type": "string"},
                    "start_time": {"type": "string"},
                },
            }
        }
    ),
)

print(result.json_content)

Hinweis: result.json_content gibt ein stringifiziertes JSON zurück. Parsen es in deinem Code, wenn du ein Objekt benötigst.

Mit der Seite durch Aktionen interagieren

Führe Aktionen vor dem Scrapen aus, um mit dynamischen Seiten zu interagieren. Unterstützte Aktionen:

wait mit milliseconds
click mit selector
fill_input mit selector und value
scroll mit direction und amount

Es ist oft nützlich, wait vor/nach anderen Aktionen zu verwenden, um der Seite Zeit zum Laden zu geben.

Beispiel

from olostep import FillInputAction, Olostep, WaitAction

client = Olostep(api_key="YOUR_REAL_KEY")

result = client.scrapes.create(
    url_to_scrape="https://example.com/login",
    formats=["markdown"],
    actions=[
        FillInputAction(selector="input[type=email]", value="john@example.com"),
        WaitAction(milliseconds=500),
        FillInputAction(selector="input[type=password]", value="secret"),
        {"type": "click", "selector": "button[type=\"submit\"]"},
        WaitAction(milliseconds=1500),
    ],
)

print(result.markdown_content)

Die Antwort wird alle angeforderten Formate enthalten (z.B. markdown_content).

Anwendungsfälle

Nachfolgend sind einige praktische Anwendungen von Kunden, die den /scrapes Endpunkt nutzen.

Inhaltsanalyse & Forschung

Wettbewerbsanalyse: Extrahiere Produktdetails, Preise und Funktionen von Wettbewerber-Websites
Marktforschung: Analysiere Landingpages, Produktbeschreibungen und Kundenbewertungen
Akademische Forschung: Sammle spezifische Daten aus wissenschaftlichen Publikationen oder Forschungsportalen
Rechtsdokumentation: Extrahiere Fallstudien, Vorschriften oder rechtliche Präzedenzfälle von offiziellen Websites

E-Commerce & Einzelhandel

Dynamische Preisstrategien: Erhalte Echtzeit-Produktpreise von konkurrierenden Geschäften
Produktinformationsmanagement: Extrahiere detaillierte Spezifikationen und Beschreibungen
Bestands-/Inventarüberwachung: Überprüfe die Produktverfügbarkeit bei anderen Einzelhändlern
Rezensionsanalyse: Sammle Verbraucherfeedback und -stimmung für spezifische Produkte

Marketing & Inhaltserstellung

Inhaltskuratierung: Extrahiere relevante Artikel und Blogbeiträge für Newsletter
SEO-Analyse: Untersuche die Keyword-Nutzung, Meta-Beschreibungen und Seitenstruktur von Wettbewerbern
Lead-Generierung: Extrahiere Kontaktinformationen aus Unternehmensverzeichnissen oder Firmenwebseiten
Influencer-Forschung: Sammle Engagement-Metriken und Inhaltsstile von Influencer-Profilen
Personalisierte Social-Media-Generierung: Erstelle KI-gestützte Social-Media-Marketingkampagnen durch Analyse von Kundenwebsites

Datenanwendungen

AI-Trainingsdatensammlung: Sammle spezifische Beispiele für maschinelle Lernmodelle
Erstellung einer benutzerdefinierten Wissensdatenbank: Extrahiere Dokumentationen oder Anleitungen von Software-Websites
Historische Datenarchive: Bewahre Website-Inhalte zu bestimmten Zeitpunkten
Strukturierte Datenextraktion: Transformiere Webinhalte in formatierte Datensätze zur Analyse

Überwachung & Benachrichtigungen

Überwachung der Einhaltung von Vorschriften: Verfolge Änderungen auf rechtlichen oder regulatorischen Websites
Krisenmanagement: Überwache Nachrichtenseiten auf Erwähnungen bestimmter Ereignisse oder Organisationen
Ereignisverfolgung: Extrahiere Details zu bevorstehenden Veranstaltungen von Veranstaltungsorten oder Organisatoren-Websites
Überwachung des Dienststatus: Überprüfe Dienststatusseiten für spezifische Plattformen oder Tools

Veröffentlichung & Medien

Nachrichtenaggregation: Extrahiere aktuelle Nachrichten aus offiziellen Quellen
Medienüberwachung: Verfolge spezifische Themen auf Nachrichtenseiten
Inhaltsverifizierung: Extrahiere Informationen, um Behauptungen oder Aussagen zu überprüfen
Multimedia-Extraktion: Sammle eingebettete Videos, Bilder oder Audiodateien für Medienbibliotheken

Finanzanwendungen

Investitionsforschung: Extrahiere Finanzberichte oder Jahresberichte von Unternehmenswebsites
Wirtschaftsindikatoren: Sammle Wirtschaftsdaten von Regierungs- oder Finanzinstitutions-Websites
Kryptowährungsdaten: Extrahiere Echtzeit-Preise und Marktkapitalisierungsinformationen
Analyse von Finanznachrichten: Überwache Finanznachrichtenseiten auf spezifische Marktsignale

Technische Anwendungen

API-Dokumentationsextraktion: Sammle technische Dokumentationen zur Referenz
Integrationstests: Extrahiere Website-Elemente, um Drittanbieter-Integrationen zu überprüfen
Barrierefreiheitstests: Analysiere die Website-Struktur auf Einhaltung von Barrierefreiheitsstandards
Erstellung von Webarchiven: Erfasse vollständige Website-Inhalte zur historischen Bewahrung

Integrationsszenarien

CRM-Systeme: Bereichere Kundenprofile mit Daten von Unternehmenswebsites oder LinkedIn
Content-Management-Systeme: Importiere relevante externe Inhalte
Business-Intelligence-Tools: Ergänze interne Daten mit externen Marktinformationen
Projektmanagement-Software: Extrahiere Spezifikationen oder Anforderungen von Kundenwebsites
Benutzerdefinierte Dashboards: Zeige extrahierte Daten neben internen Metriken an

Fehlerbehandlung

Alle Fehler folgen einem gemeinsamen Umschlagformat. Überprüfe error.type und error.code, um programmatisch zu verzweigen:

{
  "id": "error_abc123",
  "object": "error",
  "created": 1745673871,
  "url": "https://example.com",
  "metadata": {},
  "error": {
    "type": "...",
    "code": "...",
    "message": "..."
  }
}

HTTP	`error.type`	`error.code`	Bedeutung
400	`invalid_request_error`	`dns_resolution_failed`	Die Domain existiert nicht oder die URL enthält einen Tippfehler.
400	`invalid_request_error`	`invalid_url`	Die URL ist fehlerhaft.
502	`invalid_request_error`	`tls_error`	Die Website hat ein ungültiges oder inkompatibles TLS/SSL-Zertifikat. `error.detail` enthält den Low-Level-SSL-Code.
504	`request_timeout`	`scrape_poll_timeout`	Das Scraping wurde nicht innerhalb des ~55-Sekunden-Wartebudgets abgeschlossen.

DNS-Fehler (400)

Die Domain wird nicht aufgelöst. Überprüfe die URL auf Tippfehler.

{
  "error": {
    "type": "invalid_request_error",
    "code": "dns_resolution_failed",
    "message": "Die URL enthält einen Tippfehler oder die Domain existiert nicht."
  }
}

TLS/SSL-Fehler (502)

Die Zielwebsite hat eine fehlerhafte oder inkompatible HTTPS-Konfiguration. error.detail liefert den spezifischen SSL-Fehlercode zur Diagnose; error.code ist immer tls_error.

{
  "error": {
    "type": "invalid_request_error",
    "code": "tls_error",
    "detail": "err_ssl_tlsv1_alert_internal_error",
    "message": "Die Website hat die TLS-Handshake geschlossen oder abgelehnt. Der Server könnte falsch konfiguriert sein oder eine nicht unterstützte SSL/TLS-Version verwenden."
  }
}

Anforderungszeitüberschreitung (504)

Das Scraping wurde nicht innerhalb des Wartebudgets abgeschlossen. Die Seite könnte langsam, bot-geschützt oder vorübergehend nicht verfügbar sein. Diese Antwort kann sicher erneut versucht werden.

{
  "error": {
    "type": "request_timeout",
    "code": "scrape_poll_timeout",
    "message": "Anforderung abgelaufen, während auf das Scraping-Ergebnis gewartet wurde. Die Seite könnte langsam sein, für unsere Fetcher blockiert oder vorübergehend nicht verfügbar."
  }
}

Preisgestaltung

Scrape kostet standardmäßig 1 Kredit. Wenn du auch parsers verwendest, variieren die Kosten je nach Parser (1-5 Credits). Wenn du LLM extract verwendest, kostet es 20 Credits.

Loslegen

Funktionen

Integrationen

Documentation Index

​Eine URL scrapen

​Installation

​Verwendung

​Antwort

​Scrape-Formate

​Strukturierte Daten extrahieren

​Einen Parser verwenden (empfohlen für Skalierung)

​LLM-Extraktion verwenden (Schema und/oder Prompt)

​Mit der Seite durch Aktionen interagieren

​Beispiel

​Anwendungsfälle

​Inhaltsanalyse & Forschung

​E-Commerce & Einzelhandel

​Marketing & Inhaltserstellung

​Datenanwendungen

​Überwachung & Benachrichtigungen

​Veröffentlichung & Medien

​Finanzanwendungen

​Technische Anwendungen

​Integrationsszenarien

​Fehlerbehandlung

​DNS-Fehler (400)

​TLS/SSL-Fehler (502)

​Anforderungszeitüberschreitung (504)

​Preisgestaltung