Zum Hauptinhalt springen

Übersicht

Der scrape-Endpunkt von Olostep ermöglicht es, Inhalte von jeder Website zu extrahieren. Inhalte im Markdown-Format sind nützlich, wenn du sie einem LLM zuführen möchtest, ohne den gesamten HTML-Code. In diesem Leitfaden werden wir sehen, wie man Markdown von einer Website wie https://www.nea.com/team extrahiert.

Voraussetzungen

Bevor du beginnst, stelle sicher, dass du Folgendes hast:
  • Einen gültigen Olostep API-Schlüssel. Du kannst einen erhalten, indem du dich bei Olostep anmeldest.
  • Python auf deinem System installiert
  • Die Bibliotheken requests und json (diese sind standardmäßig mit Python installiert, aber du kannst sie bei Bedarf mit pip install requests installieren)

Text von einer Website extrahieren

Das folgende Python-Skript zeigt, wie man Text- und Markdown-Inhalte von einer Website mithilfe der Olostep-API extrahiert.
import requests
import json

url = "https://api.olostep.com/v1/scrapes"

payload = {
    "url_to_scrape": "https://www.nea.com/team",
    "country": "US",
    "formats": ["markdown"],
    "wait_before_scraping": 0,
    "remove_css_selectors": "default",
}

headers = {
    "Authorization": "Bearer <YOUR_API_KEY>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(json.dumps(response.json(), indent=4))

Beispielantwort

Eine erfolgreiche Antwort sieht ungefähr so aus:
{
    "id": "scrape_63x2e5sf5r",
    "object": "scrape",
    "created": 1740341743,
    "metadata": {},
    "retrieve_id": "63x2e5sf5r",
    "url_to_scrape": "https://www.nea.com/team",
    "result": {
        "html_content": null,
        "markdown_content": "NEA ….",
        "text_content": null,
        "json_content": null,
        "llm_extract": null,
        "screenshot_hosted_url": null,
        "html_hosted_url": null,
        "markdown_hosted_url": "https://olostep-storage.s3.us-east-1.amazonaws.com/markDown_63x2e5sf5r.txt",
        "json_hosted_url": null,
        "text_hosted_url": null,
        "links_on_page": [],
        "page_metadata": {
            "status_code": 200,
            "title": ""
        }
    }
}

Erklärung

  • url_to_scrape: gibt die URL der Website an, von der Inhalte extrahiert werden sollen.
  • formats: definiert die Ausgabeformate (in diesem Fall Text).
  • Authorization: enthält deinen API-Schlüssel zur Authentifizierung der Anfrage.
  • Die Antwort wird als JSON formatiert und zur besseren Lesbarkeit ausgegeben.

Fazit

Mit Olostep kannst du problemlos Markdown-Inhalte von jeder Website extrahieren. Dies ist nützlich, wenn du Inhalte von einer Website abrufen und einem LLM zur Datenextraktion und -analyse zuführen möchtest. Wenn du Inhalte in großem Maßstab immer wieder von derselben Website extrahieren möchtest (z. B. zur Datenüberwachung, Preisverfolgung usw.), empfehlen wir die Verwendung eines benutzerdefinierten Parsers, um die Inhalte im JSON-Format zu erhalten.