Überblick
Olostep bietet eine Web-Scraping-API, die eine Echtzeit-Preisverfolgung von Millionen von Produkten auf einer E-Commerce-Plattform in regelmäßigen Abständen (z. B. alle paar Stunden) auf skalierbare und kosteneffiziente Weise ermöglicht. Dies ist nützlich für Unternehmen, die Preisänderungen überwachen, Preise auf mehreren Websites vergleichen oder die Preisstrategien von Wettbewerbern verfolgen möchten. In diesem Leitfaden werden wir sehen, wie ein Kunde Olostep verwendet, um eine automatisierte Preisverfolgung für Millionen von Amazon-Produkten täglich einzurichten.Warum Olostep für die Preisverfolgung verwenden?
- Skalierbarkeit: Verfolgen Sie Preise für Millionen von Produkten alle paar Stunden.
- Automatisierung: Richten Sie geplante Scraping-Aufgaben ein, die zu vordefinierten Zeiten/regelmäßigen Intervallen ausgeführt werden.
- Mehrere Formate: Abrufen von Daten im JSON-, HTML- oder Markdown-Format.
- Benutzerdefinierte Parser: Extrahieren Sie nur die relevanten JSON-Informationen mit unseren Parsern oder übergeben Sie Ihre eigenen an die API.
Wie man Preise mit Olostep verfolgt
Überblick über die Prozess-Einrichtung
Beim Verfolgen von Produkten in großem Maßstab empfehlen wir die Verwendung des Batches-Endpunkts von Olostep. Dieser Endpunkt ermöglicht es Ihnen, mehrere Batches von URLs (jeweils bis zu 10.000) parallel zu verarbeiten und die Ergebnisse nach 5-8 Minuten abzurufen. Sie können mehrere Batches gleichzeitig senden, ihren Fortschritt überwachen und die Ergebnisse abrufen, sobald sie abgeschlossen sind. Auf diese Weise können Sie Millionen von URLs in 15-20 Minuten verarbeiten. Der allgemeine Ablauf für die Preisverfolgung mit Olostep ist wie folgt:- Lesen Sie die Produkte aus der Datenbank und speichern Sie die URLs, die Sie verfolgen möchten, in einer CSV-Datei.
- Lesen Sie die Daten aus der CSV-Datei und starten Sie einen Batch mit dem Batch-Endpunkt von Olostep. Dies erfolgt durch das Posten der Daten an den Endpunkt in Blöcken von jeweils bis zu 10.000 URLs.
- Überprüfen Sie alle 60 Sekunden den Batch-Status, um den Fortschritt zu überwachen.
- Sobald der Batch abgeschlossen ist, lesen Sie den Inhalt und verwenden Sie ihn in Ihrem Workflow.
Schritt 1: Exportieren der Produktdaten aus Ihrer Datenbank
Der erste Schritt besteht darin, Produktinformationen aus Ihrer Datenbank abzurufen und im CSV-Format zu speichern. Diese Datei sollte Produktkennungen, URLs und alle zusätzlichen Metadaten enthalten, die für die Verfolgung erforderlich sind.Schritt 2: Starten eines Batches mit Olostep
Um einen Batch zu starten, lesen Sie die Produktdaten aus der CSV und senden Sie sie an den Batch-Endpunkt von Olostep. Dies erfolgt mittels einer HTTP-POST-Anfrage mit einer JSON-Nutzlast. Jeder Batch kann bis zu 10.000 URLs enthalten. Für große Datensätze (>10.000 URLs) teilen Sie diese in mehrere Batches auf und senden Sie sie parallel. Ein Batch besteht aus einem Array von Elementen, wobei jedes Element eine zu verarbeitende Produkt-URL darstellt. Hier ist die Struktur einer Batch-Anfrage:Struktur des Batch-Arrays
Jedes Element im batch_array sollte dieser Struktur folgen:Array von zu verarbeitenden Elementen. Maximal 10.000 URLs pro Batch. Jedes Element muss eine eindeutige
custom_id haben.Zweibuchstabiger Ländercode (z.B. “IT” für Italien).
Name des zu verwendenden benutzerdefinierten Parsers (z.B. “@olostep/amazon-it-product”). Kontaktieren Sie uns unter info@olostep.com, um Zugriff auf die vorgefertigten Parser zu erhalten oder um Ihren eigenen zu erstellen.
Schritt 3: Überwachen des Batch-Status
Sobald ein Batch gestartet ist, müssen Sie seinen Status überwachen, um festzustellen, wann die Verarbeitung abgeschlossen ist. Die API bietet einen Status-Endpunkt, der periodisch (z.B. alle 60 Sekunden) mit der batch_id abgefragt werden kann.Schritt 4: Abrufen der IDs für abgeschlossene Elemente
Sobald der Batch als abgeschlossen markiert ist, können Sie die Liste der abgeschlossenen Elemente abrufen. Jedes Element wird eine retrieve_id haben. Wenn Sie den tatsächlichen Inhalt möchten, verwenden Sie den retrieve-Endpunkt, indem Sie dieretrieve_id übergeben.
retrieve_id für jede gesendete URL haben. Sie können dann den retrieve-Endpunkt verwenden, um die extrahierten Daten (HTML, Markdown oder JSON) für jede URL abzurufen und zu speichern.
Sie können die retrieve_id für jedes Element im Batch mit folgendem Code abrufen:
Schritt 5: Abrufen des Inhalts für jedes Element
Sobald Sie dieretrieve_id für jedes Element haben, können Sie dessen Inhalt (HTML, Markdown oder JSON) mit dem retrieve-Endpunkt abrufen: