Vue d’ensemble
Olostep fournit une API de web scraping qui permet le suivi en temps réel des prix de millions de produits sur un site e-commerce à intervalles réguliers (par exemple, toutes les quelques heures) de manière évolutive et économique. Cela est utile pour les entreprises qui souhaitent surveiller les fluctuations de prix, comparer les prix sur plusieurs sites web, ou suivre les stratégies de tarification des concurrents. Dans ce guide, nous verrons comment un client utilise Olostep pour mettre en place un suivi automatisé des prix pour des millions de produits Amazon quotidiennement.Pourquoi utiliser Olostep pour le suivi des prix ?
- Évolutivité : Suivez les prix de millions de produits toutes les quelques heures.
- Automatisation : Configurez des tâches de scraping planifiées qui s’exécutent à des moments prédéfinis/intervalles réguliers.
- Formats multiples : Récupérez les données au format JSON, html ou markdown.
- Parseurs personnalisés : Extrayez uniquement les informations JSON pertinentes avec nos parseurs ou passez les vôtres à l’API.
Comment suivre les prix avec Olostep
Aperçu de la configuration du processus
Lors du suivi de produits à grande échelle, nous recommandons d’utiliser le point de terminaison Batches d’Olostep. Ce point de terminaison vous permet d’envoyer plusieurs lots d’URLs (chacun jusqu’à 10 000) à traiter en parallèle, puis de récupérer les résultats après 5 à 8 minutes. Vous pouvez envoyer plusieurs lots en même temps, surveiller leur progression et récupérer les résultats une fois qu’ils sont complets. De cette manière, vous pouvez traiter des millions d’URLs en 15 à 20 minutes. Le flux global pour le suivi des prix avec Olostep est le suivant :- Lire les produits de la base de données et enregistrer les URLs que vous souhaitez suivre dans un fichier CSV.
- Lire les données du fichier CSV et démarrer un lot en utilisant le point de terminaison batch d’Olostep. Cela se fait en postant les données au point de terminaison par morceaux de jusqu’à 10 000 URLs à la fois.
- Vérifiez le statut du lot toutes les 60 secondes pour surveiller la progression.
- Une fois le lot terminé, lisez le contenu et utilisez-le dans votre flux de travail.
Étape 1 : Exporter les données des produits de votre base de données
La première étape consiste à récupérer les informations sur les produits de votre base de données et à les enregistrer au format CSV. Ce fichier doit contenir les identifiants des produits, les URLs, et toute autre métadonnée nécessaire pour le suivi.Étape 2 : Démarrer un lot avec Olostep
Pour démarrer un lot, lisez les données des produits à partir du CSV et envoyez-les au point de terminaison batch d’Olostep. Cela se fait en utilisant une requête HTTP POST avec une charge utile JSON. Chaque lot peut contenir jusqu’à 10 000 URLs. Pour les ensembles de données volumineux (>10 000 URLs), divisez-les en plusieurs lots et envoyez-les en parallèle. Un lot se compose d’un tableau d’éléments, où chaque élément représente une URL de produit à traiter. Voici la structure d’une requête de lotStructure du tableau de lots
Chaque élément dans le batch_array doit suivre cette structure :Tableau d’éléments à traiter. Maximum de 10 000 URLs par lot. Chaque élément doit avoir un
custom_id unique.Code pays à deux lettres (par exemple, “IT” pour l’Italie).
Nom du parseur personnalisé à utiliser (par exemple, “@olostep/amazon-it-product”). Contactez-nous à info@olostep.com pour accéder aux parseurs pré-construits ou pour créer le vôtre.
Étape 3 : Surveiller le statut du lot
Une fois qu’un lot est démarré, vous devrez surveiller son statut pour déterminer quand le traitement est terminé. L’API fournit un point de terminaison de statut qui peut être interrogé périodiquement (par exemple, toutes les 60 secondes) avec le batch_idÉtape 4 : Récupérer les IDs pour les éléments complétés
Une fois que le lot est marqué comme terminé, vous pouvez récupérer la liste des éléments complétés. Chaque élément aura un retrieve_id. Si vous souhaitez le contenu réel, utilisez le point de terminaison retrieve en passant leretrieve_id
retrieve_id pour chaque URL envoyée. Vous pouvez ensuite utiliser le point de terminaison retrieve pour récupérer et stocker les données extraites (html, markdown ou JSON) pour chaque URL.
Vous pouvez obtenir le retrieve_id pour chaque élément dans le lot en utilisant le code suivant :
Étape 5 : Récupérer le contenu pour chaque élément
Une fois que vous avez leretrieve_id pour chaque élément, vous pouvez récupérer son contenu (HTML, Markdown ou JSON) en utilisant le point de terminaison retrieve :