Vue d’ensemble
Olostep fournit une API de web scraping qui permet le suivi en temps réel des prix de millions de produits sur un e-commerce à intervalles réguliers (par exemple toutes les quelques heures) de manière évolutive et rentable. Ceci est utile pour les entreprises qui souhaitent surveiller les fluctuations de prix, comparer les prix sur plusieurs sites web ou suivre les stratégies de tarification des concurrents. Dans ce guide, nous verrons comment un client utilise Olostep pour configurer un suivi automatisé des prix pour des millions de produits Amazon quotidiennement.Pourquoi utiliser Olostep pour le suivi des prix ?
- Évolutivité : Suivez les prix de millions de produits toutes les quelques heures.
- Automatisation : Configurez des tâches de scraping planifiées qui s’exécutent à des moments prédéfinis/intervalles réguliers.
- Formats multiples : Récupérez les données au format JSON, html ou markdown.
- Parseurs personnalisés : Extrayez uniquement les informations JSON pertinentes avec nos parseurs ou passez les vôtres à l’API.
Comment suivre les prix avec Olostep
Vue d’ensemble de la configuration du processus
Lors du suivi de produits à grande échelle, nous recommandons d’utiliser le point de terminaison Batches d’Olostep. Ce point de terminaison vous permet d’envoyer plusieurs lots d’URL (chacun jusqu’à 10 000) à traiter en parallèle, puis de récupérer les résultats après 5 à 8 minutes. Vous pouvez envoyer plusieurs lots en même temps, surveiller leur progression et récupérer les résultats une fois qu’ils sont terminés. De cette façon, vous pouvez traiter des millions d’URL en 15 à 20 minutes. Le flux global pour le suivi des prix avec Olostep est le suivant :- Lisez les produits de la base de données et enregistrez les URL que vous souhaitez suivre dans un fichier CSV.
- Lisez les données du fichier CSV et démarrez un lot en utilisant le point de terminaison de lot d’Olostep. Cela se fait en postant les données au point de terminaison par morceaux de jusqu’à 10 000 URL à la fois.
- Vérifiez l’état du lot toutes les 60 secondes pour surveiller la progression.
- Une fois le lot terminé, lisez le contenu et utilisez-le dans votre flux de travail.
Étape 1 : Exporter les données produits de votre base de données
La première étape consiste à récupérer les informations sur les produits de votre base de données et à les enregistrer au format CSV. Ce fichier doit contenir des identifiants de produits, des URL et toutes les métadonnées supplémentaires nécessaires pour le suivi.Étape 2 : Démarrer un lot avec Olostep
Pour démarrer un lot, lisez les données produits du CSV et envoyez-les au point de terminaison de lot d’Olostep. Cela se fait en utilisant une requête HTTP POST avec une charge utile JSON. Chaque lot peut contenir jusqu’à 10 000 URL. Pour les grands ensembles de données (>10 000 URL), divisez-les en plusieurs lots et envoyez-les en parallèle. Un lot se compose d’un tableau d’éléments, où chaque élément représente une URL de produit à traiter. Voici la structure d’une requête de lotStructure du tableau de lot
Chaque élément dans le batch_array doit suivre cette structure :Tableau d’éléments à traiter. Maximum de 10 000 URL par lot. Chaque élément doit avoir un
custom_id unique.Code pays à deux lettres (par exemple, “IT” pour l’Italie).
Nom du parseur personnalisé à utiliser (par exemple, “@olostep/amazon-it-product”). Contactez-nous à info@olostep.com pour accéder aux parseurs préconstruits ou pour créer le vôtre.
Étape 3 : Surveiller l’état du lot
Une fois qu’un lot est démarré, vous devrez surveiller son état pour déterminer quand le traitement est terminé. L’API fournit un point de terminaison de statut qui peut être interrogé périodiquement (par exemple, toutes les 60 secondes) avec le batch_idÉtape 4 : Récupérer les ID pour les éléments terminés
Une fois le lot marqué comme terminé, vous pouvez récupérer la liste des éléments terminés. Chaque élément aura un retrieve_id. Si vous voulez le contenu réel, utilisez le point de terminaison retrieve en passant leretrieve_id
retrieve_id pour chaque URL envoyée. Vous pouvez ensuite utiliser le point de terminaison retrieve pour récupérer et stocker les données extraites (html, markdown ou JSON) pour chaque URL.
Vous pouvez obtenir le retrieve_id pour chaque élément dans le lot en utilisant le code suivant :
Étape 5 : Récupérer le contenu pour chaque élément
Une fois que vous avez leretrieve_id pour chaque élément, vous pouvez récupérer son contenu (HTML, Markdown ou JSON) en utilisant le point de terminaison retrieve :