Überblick
Der Batches-Endpunkt von Olostep ermöglicht es dir, ein Batch von bis zu 10.000 URLs zu starten und den Inhalt in 5–7 Minuten zurückzubekommen. Du kannst bis zu 10 Batches gleichzeitig starten, um Inhalte von 100.000 URLs auf einmal zu extrahieren. Wenn du mehr Skalierung benötigst, kontaktiere uns bitte. Dies ist nützlich, wenn du bereits die URLs hast, die du verarbeiten möchtest – zum Beispiel, um Daten für Analysen zu aggregieren, ein spezialisiertes Suchwerkzeug zu erstellen oder mehrere Websites auf Änderungen zu überwachen. In diesem Leitfaden zeigen wir dir, wie du ein Batch mit einer Liste von URLs startest und den Inhalt im Markdown-Format abrufst.Gist mit vollständigem Code
Hier ist der gesamte Code in einem Gist, den du kopieren und einfügen kannst, um Batch-Scraping mit Olostep auszuprobieren: https://gist.github.com/olostep/e903f2e4fc28f8093b834b4df68b8031 In diesem Gist haben wir gezeigt, wie man ein Batch mit 5 Google-Suchanfragen startet, den Status überprüft und den Inhalt für jedes Element abruft.Voraussetzungen
Bevor du beginnst, stelle sicher, dass du Folgendes hast:- Einen gültigen Olostep API-Schlüssel. Du kannst einen erhalten, indem du dich bei Olostep anmeldest.
- Python auf deinem System installiert.
- Die
requests- undhashlib-Bibliotheken (installiererequestsmitpip install requests, falls nötig).
Schritt 1: Erstelle ein Batch aus lokalen URLs
Wenn du bereits eine Liste von URLs hast, die du verarbeiten möchtest, kannst du sie direkt in deinem Skript definieren. Andernfalls kannst du sie aus einer Datei oder Datenbank lesen.Schritt 2: Überwache den Batch-Status
Sobald das Batch gestartet ist, kannst du seinen Status mit derbatch_id überwachen, die zurückgegeben wird, wenn du das Batch startest.
Schritt 3: Abgeschlossene Elemente abrufen
Sobald das Batch als abgeschlossen markiert ist, rufe die verarbeiteten Elemente ab.retrieve_id, die du verwenden kannst, um den gescrapten Inhalt abzurufen.
Schritt 4: Den Inhalt abrufen
Verwende dieretrieve_id, um den extrahierten Inhalt in Markdown, HTML oder JSON zu erhalten. Hier ist ein Beispiel, um den Inhalt im Markdown-Format abzurufen:
Gehosteter Inhalt
Wir hosten den Inhalt auch für 7 Tage, sodass du ihn mehrfach abrufen kannst, ohne erneut zu scrapen. Beispiel einer gehosteten URL für Markdown-InhaltBeispielanwendungsfälle
1. Suchmaschinen aufbauen
Verwende Olostep, um Inhalte von branchenspezifischen Websites (rechtlich, medizinisch, KI) zu extrahieren und eine durchsuchbare Datenbank zu erstellen.2. Website-Überwachung
Überwache die Verfügbarkeit von Produkten, Preisänderungen oder Nachrichtenaktualisierungen auf mehreren Websites, indem du tägliche Batch-Scrapes planst.3. Social Media Monitoring
Scrape Erwähnungen deiner Marke oder Schlüsselwörter in Foren oder Inhaltsquellen und extrahiere strukturierte Daten.4. Aggregatoren
Erstelle ein Job-Board, einen Nachrichtenaggregator oder eine Immobilienplattform, indem du Daten aus Dutzenden von Quellen ziehst.Fazit
Mit Batch-Scraping kannst du Inhalte von bis zu 100.000 URLs schnell und effizient extrahieren. Egal, ob du Suchwerkzeuge, Aggregatoren oder Überwachungssysteme baust, Olostep Batches vereinfachen die Arbeit. Möchtest du nur strukturierte Daten extrahieren? Verwende Parsers, um nur die Felder zu erhalten, die du benötigst. Brauchst du Hilfe? Kontaktiereinfo@olostep.com für Unterstützung oder lass uns maßgeschneiderte Skripte für deinen Anwendungsfall schreiben.