Übersicht
Der Batches-Endpunkt von Olostep ermöglicht es Ihnen, ein Batch von bis zu 10.000 URLs zu starten und den Inhalt in 5–7 Minuten zurückzubekommen. Sie können bis zu 10 Batches gleichzeitig starten, um Inhalte von 100.000 URLs auf einmal zu extrahieren. Wenn Sie mehr Skalierung benötigen, kontaktieren Sie uns bitte. Dies ist nützlich, wenn Sie bereits die URLs haben, die Sie verarbeiten möchten — zum Beispiel, um Daten für Analysen zu aggregieren, ein spezialisiertes Suchwerkzeug zu erstellen oder mehrere Websites auf Änderungen zu überwachen. In diesem Leitfaden zeigen wir Ihnen, wie Sie ein Batch mit einer Liste von URLs starten und den Inhalt im Markdown-Format abrufen.Gist mit vollständigem Code
Hier ist der gesamte Code in einem Gist, den Sie kopieren und einfügen können, um das Batch-Scraping mit Olostep auszuprobieren: https://gist.github.com/olostep/e903f2e4fc28f8093b834b4df68b8031 In diesem Gist haben wir gezeigt, wie man ein Batch mit 5 Google-Suchanfragen startet, den Status überprüft und den Inhalt für jedes Element abruft.Voraussetzungen
Bevor Sie beginnen, stellen Sie sicher, dass Sie Folgendes haben:- Einen gültigen Olostep-API-Schlüssel. Sie können einen erhalten, indem Sie sich bei Olostep anmelden.
- Python auf Ihrem System installiert.
- Die Bibliotheken
requestsundhashlib(installieren Sierequestsmitpip install requests, falls erforderlich).
Schritt 1: Ein Batch aus lokalen URLs erstellen
Wenn Sie bereits eine Liste von URLs haben, die Sie verarbeiten möchten, können Sie diese direkt in Ihrem Skript definieren. Andernfalls können Sie sie aus einer Datei oder Datenbank lesen.Schritt 2: Batch-Status überwachen
Sobald das Batch gestartet ist, können Sie seinen Status mit derbatch_id überwachen, die zurückgegeben wird, wenn Sie das Batch starten.
Schritt 3: Abgeschlossene Elemente abrufen
Sobald das Batch als abgeschlossen markiert ist, holen Sie die verarbeiteten Elemente ab.retrieve_id, die Sie verwenden können, um den gescrapten Inhalt abzurufen.
Schritt 4: Den Inhalt abrufen
Verwenden Sie dieretrieve_id, um den extrahierten Inhalt in Markdown, HTML oder JSON zu erhalten. Hier ist ein Beispiel, um den Inhalt im Markdown-Format abzurufen:
Gehosteter Inhalt
Wir hosten den Inhalt auch für 7 Tage, sodass Sie ihn mehrfach abrufen können, ohne erneut zu scrapen. Beispiel einer gehosteten URL für Markdown-InhaltBeispielanwendungen
1. Suchmaschinen bauen
Verwenden Sie Olostep, um Inhalte von branchenspezifischen Websites (rechtlich, medizinisch, KI) zu extrahieren und eine durchsuchbare Datenbank zu erstellen.2. Website-Überwachung
Überwachen Sie die Produktverfügbarkeit, Preisänderungen oder Nachrichtenaktualisierungen auf mehreren Websites, indem Sie tägliche Batch-Scrapes planen.3. Social Media Monitoring
Scrapen Sie Erwähnungen Ihrer Marke oder Schlüsselwörter in Foren oder Inhaltsquellen und extrahieren Sie strukturierte Daten.4. Aggregatoren
Erstellen Sie ein Job-Board, einen Nachrichtenaggregator oder eine Immobilienplattform, indem Sie Daten aus Dutzenden von Quellen abrufen.Fazit
Mit Batch-Scraping können Sie Inhalte von bis zu 100.000 URLs schnell und effizient extrahieren. Egal, ob Sie Suchwerkzeuge, Aggregatoren oder Überwachungssysteme erstellen, Olostep Batches vereinfachen die Aufgabe. Möchten Sie nur strukturierte Daten extrahieren? Verwenden Sie Parsers, um nur die Felder zu erhalten, die Sie benötigen. Brauchen Sie Hilfe? Kontaktieren Sieinfo@olostep.com für Unterstützung oder lassen Sie uns maßgeschneiderte Skripte für Ihren Anwendungsfall schreiben.