Überblick
Olostep bietet eine Web-Scraping-API, die eine Echtzeit-Preisverfolgung von Millionen von Produkten auf einer E-Commerce-Plattform in regelmäßigen Abständen (z.B. alle paar Stunden) auf skalierbare und kosteneffiziente Weise ermöglicht. Dies ist nützlich für Unternehmen, die Preisänderungen überwachen, Preise auf mehreren Websites vergleichen oder die Preisstrategien von Wettbewerbern verfolgen möchten. In diesem Leitfaden werden wir sehen, wie ein Kunde Olostep verwendet, um eine automatisierte Preisverfolgung für Millionen von Amazon-Produkten täglich einzurichten.Warum Olostep für die Preisverfolgung verwenden?
- Skalierbarkeit: Verfolge Preise für Millionen von Produkten alle paar Stunden.
- Automatisierung: Richte geplante Scraping-Aufgaben ein, die zu vordefinierten Zeiten/regelmäßigen Intervallen ausgeführt werden.
- Mehrere Formate: Daten im JSON-, HTML- oder Markdown-Format abrufen.
- Benutzerdefinierte Parser: Extrahiere nur die relevanten JSON-Informationen mit unseren Parsern oder übergebe deine eigenen an die API.
Wie man Preise mit Olostep verfolgt
Überblick über den Prozessablauf
Beim Verfolgen von Produkten in großem Maßstab empfehlen wir die Verwendung des Batches-Endpunkts von Olostep. Dieser Endpunkt ermöglicht es dir, mehrere Batches von URLs (jeweils bis zu 10.000) parallel zu verarbeiten und die Ergebnisse nach 5-8 Minuten abzurufen. Du kannst mehrere Batches gleichzeitig senden, ihren Fortschritt überwachen und die Ergebnisse abrufen, sobald sie abgeschlossen sind. Auf diese Weise kannst du Millionen von URLs in 15-20 Minuten verarbeiten. Der gesamte Ablauf für die Preisverfolgung mit Olostep sieht wie folgt aus:- Lese die Produkte aus der Datenbank und speichere die URLs, die du verfolgen möchtest, in einer CSV-Datei.
- Lese die Daten aus der CSV-Datei und starte einen Batch mit dem Batch-Endpunkt von Olostep. Dies geschieht, indem die Daten in Paketen von bis zu 10.000 URLs gleichzeitig an den Endpunkt gesendet werden.
- Überprüfe den Batch-Status alle 60 Sekunden, um den Fortschritt zu überwachen.
- Sobald der Batch abgeschlossen ist, lese den Inhalt und verwende ihn in deinem Workflow.
Schritt 1: Produktdaten aus deiner Datenbank exportieren
Der erste Schritt besteht darin, Produktinformationen aus deiner Datenbank abzurufen und im CSV-Format zu speichern. Diese Datei sollte Produktkennungen, URLs und alle zusätzlichen Metadaten enthalten, die für die Verfolgung erforderlich sind.Schritt 2: Einen Batch mit Olostep starten
Um einen Batch zu starten, lese die Produktdaten aus der CSV und sende sie an den Batch-Endpunkt von Olostep. Dies erfolgt mit einer HTTP-POST-Anfrage mit einer JSON-Nutzlast. Jeder Batch kann bis zu 10.000 URLs enthalten. Für große Datensätze (>10.000 URLs) teile sie in mehrere Batches auf und sende sie parallel. Ein Batch besteht aus einem Array von Elementen, wobei jedes Element eine zu verarbeitende Produkt-URL darstellt. Hier ist die Struktur einer Batch-Anfrage:Struktur des Batch-Arrays
Jedes Element im batch_array sollte dieser Struktur folgen:Array von zu verarbeitenden Elementen. Maximal 10.000 URLs pro Batch. Jedes Element muss eine eindeutige
custom_id haben.Zwei-Buchstaben-Ländercode (z.B. “IT” für Italien).
Name des zu verwendenden benutzerdefinierten Parsers (z.B. “@olostep/amazon-it-product”). Kontaktiere uns unter info@olostep.com, um Zugang zu den vorgefertigten Parsern zu erhalten oder um deinen eigenen zu erstellen.
Schritt 3: Batch-Status überwachen
Sobald ein Batch gestartet ist, musst du seinen Status überwachen, um festzustellen, wann die Verarbeitung abgeschlossen ist. Die API bietet einen Status-Endpunkt, der periodisch (z.B. alle 60 Sekunden) mit der batch_id abgefragt werden kann.Schritt 4: Die IDs für abgeschlossene Elemente abrufen
Sobald der Batch als abgeschlossen markiert ist, kannst du die Liste der abgeschlossenen Elemente abrufen. Jedes Element hat eine retrieve_id. Wenn du den tatsächlichen Inhalt möchtest, verwende den Retrieve-Endpunkt, indem du dieretrieve_id übergibst.
retrieve_id für jede gesendete URL haben. Du kannst dann den Retrieve-Endpunkt verwenden, um die extrahierten Daten (HTML, Markdown oder JSON) für jede URL abzurufen und zu speichern.
Du kannst die retrieve_id für jedes Element im Batch mit folgendem Code abrufen:
Schritt 5: Den Inhalt für jedes Element abrufen
Sobald du dieretrieve_id für jedes Element hast, kannst du dessen Inhalt (HTML, Markdown oder JSON) mit dem Retrieve-Endpunkt abrufen: