Overzicht
Olostep biedt een web scraping API die real-time prijsvolging van miljoenen producten op een e-commerce platform mogelijk maakt op regelmatige intervallen (bijv. elke paar uur) op een schaalbare en kosteneffectieve manier. Dit is nuttig voor bedrijven die prijsfluctuaties willen monitoren, prijzen willen vergelijken op meerdere websites, of de prijsstrategieën van concurrenten willen volgen. In deze gids zullen we zien hoe een klant Olostep gebruikt om geautomatiseerde prijsvolging voor miljoenen Amazon-producten dagelijks op te zetten.Waarom Olostep gebruiken voor Prijsvolging?
- Schaalbaarheid: Volg prijzen voor miljoenen producten elke paar uur.
- Automatisering: Stel geplande scraping-taken in die op vooraf bepaalde tijden/reguliere intervallen worden uitgevoerd.
- Meerdere Formaten: Haal gegevens op in JSON-, html- of markdown-formaat.
- Aangepaste Parsers: Extraheer alleen de relevante JSON-informatie met onze parsers of geef je eigen parser door aan de API.
Hoe Prijzen Volgen met Olostep
Overzicht van het Proces
Bij het volgen van producten op grote schaal raden we aan om Olostep’s Batches endpoint te gebruiken. Deze endpoint stelt je in staat om meerdere batches van URL’s (elk tot 10k) parallel te laten verwerken en vervolgens de resultaten na 5-8 minuten op te halen. Je kunt meerdere batches tegelijkertijd verzenden, hun voortgang monitoren en de resultaten ophalen zodra ze voltooid zijn. Op deze manier kun je miljoenen URL’s in 15-20 minuten verwerken. De algemene flow voor prijsvolging met Olostep is als volgt:- Lees de producten uit de database en sla de URL’s die je wilt volgen op in een CSV-bestand.
- Lees de gegevens uit het CSV-bestand en start een batch met behulp van Olostep’s batch endpoint. Dit doe je door de gegevens in stukken van maximaal 10.000 URL’s per keer naar de endpoint te posten.
- Controleer de batchstatus elke 60 seconden om de voortgang te monitoren.
- Zodra de batch voltooid is, lees je de inhoud en gebruik je deze in je workflow.
Stap 1: Exporteer Productgegevens uit je Database
De eerste stap is om productinformatie uit je database op te halen en deze in CSV-formaat op te slaan. Dit bestand moet productidentificatoren, URL’s en eventuele aanvullende metadata bevatten die nodig zijn voor het volgen.Stap 2: Start een Batch met Olostep
Om een batch te starten, lees je de productgegevens uit de CSV en stuur je deze naar de Olostep batch endpoint. Dit gebeurt met een HTTP POST-verzoek met een JSON-payload. Elke batch kan maximaal 10k URL’s bevatten. Voor grote datasets (>10.000 URL’s), splits je deze in meerdere batches en stuur je ze parallel. Een batch bestaat uit een array van items, waarbij elk item een product-URL vertegenwoordigt die moet worden verwerkt. Hier is de structuur van een batchverzoek:Batch Array Structuur
Elk item in de batch_array moet deze structuur volgen:Array van items om te verwerken. Maximaal 10.000 URL’s per batch. Elk item moet een unieke
custom_id hebben.Twee-letterige landcode (bijv. “IT” voor Italië).
Naam van de aangepaste parser om te gebruiken (bijv. “@olostep/amazon-it-product”). Neem contact met ons op via info@olostep.com om toegang te krijgen tot de vooraf gebouwde parsers of om je eigen parser te maken.
Stap 3: Monitor Batch Status
Zodra een batch is gestart, moet je de status ervan monitoren om te bepalen wanneer de verwerking is voltooid. De API biedt een status endpoint die periodiek kan worden gepolld (bijv. elke 60 seconden) met de batch_idStap 4: Haal de ID’s voor Voltooide Items op
Zodra de batch als voltooid is gemarkeerd, kun je de lijst met voltooide items ophalen. Elk item heeft een retrieve_id. Als je de daadwerkelijke inhoud wilt, gebruik dan de retrieve endpoint door deretrieve_id door te geven
retrieve_id hebben voor elke verzonden URL. Je kunt vervolgens de retrieve endpoint gebruiken om de geëxtraheerde gegevens (html, markdown of JSON) voor elke URL op te halen en op te slaan.
Je kunt de retrieve_id voor elk item in de batch verkrijgen met de volgende code:
Stap 5: Haal de Inhoud voor elk Item op
Zodra je deretrieve_id voor elk item hebt, kun je de inhoud (HTML, Markdown of JSON) ophalen met behulp van de retrieve endpoint: