Fonctionnalités
L’intégration offre 6 opérations puissantes pour l’extraction automatisée de données web :Scraper un site web
Rechercher
Réponses (IA)
Scraper des URLs en lot
Créer un Crawl
Créer une Carte
Installation
1. Installer le Nœud
Installez le package de nœud Olostep via npm :2. Connectez votre compte
Lorsque vous utilisez pour la première fois le nœud Olostep dans un flux de travail, vous devrez configurer les informations d’identification :- Ajoutez le nœud “Olostep Scrape” à votre flux de travail
- Cliquez sur le nœud pour ouvrir ses paramètres
- Cliquez sur “Créer une nouvelle information d’identification” ou sélectionnez des informations d’identification existantes
- Entrez votre clé API Olostep
- Cliquez sur “Enregistrer” pour stocker l’information d’identification
Actions Disponibles
Scraper un site web
Extraire le contenu d’une URL unique. Prend en charge plusieurs formats et le rendu JavaScript. Cas d’utilisation :- Surveiller les changements sur des pages spécifiques
- Extraire des informations produit de sites e-commerce
- Rassembler des données d’articles de presse ou de blogs
- Récupérer du contenu pour l’agrégation de contenu
- ID du scrape
- URL scrappée
- Contenu Markdown
- Contenu HTML
- Contenu JSON
- Contenu texte
- Statut
- Horodatage
- URL de capture d’écran (si disponible)
- Métadonnées de la page
Surveiller les prix des concurrents
Surveiller les prix des concurrents
- URL : Page produit du concurrent
- Format : JSON
- Parseur : @olostep/amazon-product
- Ajouter les données de prix au tableau de suivi
- Alerter l’équipe des changements de prix
Extraire et enregistrer des articles de blog
Extraire et enregistrer des articles de blog
- URL : {{$json.link}}
- Format : Markdown
- Enregistrer le contenu de l’article dans la base de données Notion
Enrichissement de prospects
Enrichissement de prospects
- URL : Site web de l’entreprise depuis la feuille
- Format : Markdown
- Extraire les informations de l’entreprise à l’aide de l’IA
- Ajouter les données enrichies à la feuille
Rechercher
Recherchez sur le Web pour une requête donnée et obtenez des résultats structurés (résultats de recherche basés sur un parseur, non-IA). Cas d’utilisation :- Flux de travail de recherche automatisée
- Découverte et enrichissement de prospects
- Analyse concurrentielle
- Recherche de contenu
Recherche automatisée
Recherche automatisée
- Requête : “derniers développements en IA”
- Extraire et formater les informations clés
- Stocker les résultats de recherche
Découverte de prospects
Découverte de prospects
- Requête : ”{{$json.searchTerm}}”
- Stocker les prospects avec les informations de contact
Scraper des URLs en lot
Scrapez jusqu’à 10 000 URLs en même temps. Parfait pour l’extraction de données à grande échelle. Cas d’utilisation :- Scraper des catalogues de produits entiers
- Extraire des données de plusieurs résultats de recherche
- Traiter des listes d’URLs depuis des feuilles de calcul
- Extraction de contenu en masse
[{"url":"https://example.com","custom_id":"site1"}]- ID du lot (utilisez ceci pour récupérer les résultats plus tard)
- Statut
- Total des URLs
- Créé à
- Format demandé
- Code pays
- Parseur utilisé
Scraper le catalogue de produits
Scraper le catalogue de produits
- Convertir CSV/liste en format tableau JSON
- URLs : {{$json.urlArray}}
- Format : JSON
- Parseur : @olostep/amazon-product
- Envoyer l’ID du lot à votre système pour récupération
Surveillance quotidienne de contenu
Surveillance quotidienne de contenu
- Récupérer les URLs à surveiller
- Convertir en format tableau de lot
- Traiter toutes les URLs en une seule fois
- Notifier l’équipe que le scraping est terminé
Créer un Crawl
Obtenez le contenu des sous-pages d’une URL. Découvrez et scrapez de manière autonome des sites entiers en suivant les liens. Parfait pour les sites de documentation, les blogs et les référentiels de contenu. Cas d’utilisation :- Crawler et archiver des sites de documentation entiers
- Extraire tous les articles de blog d’un site web
- Construire des bases de connaissances à partir de contenu web
- Surveiller les changements de structure de site
- ID du crawl (utilisez ceci pour récupérer les résultats plus tard)
- Type d’objet
- Statut
- URL de départ
- Nombre maximum de pages
- Suivre les liens
- Horodatage de création
- Formats
Archiver un site de documentation
Archiver un site de documentation
- URL de départ : https://docs.example.com
- Pages max : 500
- Suivre les liens : true
- Format : Markdown
- Envoyer l’ID du crawl à votre système d’archivage
- Notifier l’équipe que le crawl est en cours
Analyse de contenu concurrentiel
Analyse de contenu concurrentiel
- URL de départ : URL du blog du concurrent
- Pages max : 100
- Format : Markdown
- Attendre que le crawl soit terminé
- Stocker les données du crawl pour analyse
Créer une Carte
Obtenez toutes les URLs d’un site web. Extraire toutes les URLs d’un site web pour la découverte de contenu et l’analyse de la structure du site. Cas d’utilisation :- Construire des sitemaps et des diagrammes de structure de site
- Découvrir toutes les pages avant le scraping en lot
- Trouver des pages cassées ou manquantes
- Audits SEO et analyses
- ID de la carte
- Type d’objet
- URL du site web
- Total des URLs trouvées
- URLs (tableau JSON)
- Requête de recherche
- Limite Top N
Découvrir et scraper
Découvrir et scraper
- URL : https://example.com
- Inclure les motifs : /products/**
- Top N : 500
- Analyser les URLs à partir du résultat de la carte
- URLs : {{$json.urls}}
- Format : JSON
- Ajouter toutes les données produit à la feuille de calcul
Audit SEO du site
Audit SEO du site
- URL : Votre site web
- Top N : 1000
- Stocker toutes les URLs pour le suivi
- Rapporter le nombre total de pages trouvées
Exemples de flux de travail populaires
Surveillance des prix en e-commerce
Surveillez les prix des concurrents et recevez des alertes instantanées :Agrégation de contenu
Agréguez du contenu de plusieurs sources :Pipeline d’enrichissement de prospects
Enrichissez les données de prospects avec des informations web :Automatisation de la recherche
Automatisez la recherche à partir de plusieurs sources :Surveillance des médias sociaux
Suivez les mentions et le contenu :Flux de travail multi-étapes
Pipeline complet de scraping de produits
Construisez un pipeline complet de données produit :Découvrir les URLs de produits
- Inclure les motifs :
/products/** - Exclure les motifs :
/cart/**,/checkout/**
Traiter les produits en lot
- Format : JSON
- Parseur : Parseur spécifique au produit si disponible
Stocker dans la base de données
- Utilisez Airtable, Google Sheets ou votre base de données
Stratégie de contenu SEO
Analysez les concurrents et planifiez le contenu :Cartographier les sites concurrents
- Extraire tous les articles de blog et les pages de contenu
Scraper le contenu
- Format : Markdown pour une analyse facile
Analyse IA
- Identifier les lacunes de contenu
- Trouver les sujets tendance
Parseurs spécialisés
Olostep fournit des parseurs préconstruits pour les sites populaires. Utilisez-les avec le champParseur :
Produit Amazon
@olostep/amazon-productExtraire : titre, prix, note, avis, images, variantesRecherche Google
@olostep/google-searchExtraire : résultats de recherche, titres, extraits, URLsGoogle Maps
@olostep/google-mapsExtraire : infos entreprise, avis, notes, localisationExtraire les emails
@olostep/extract-emailsExtraire : emails des pages, listes de contacts, et pieds de pageExtraire les réseaux sociaux
@olostep/extract-socialsExtraire : liens de profils sociaux (X/Twitter, GitHub, etc.)Extraire les calendriers
@olostep/extract-calendarsExtraire : liens de calendriers (Google Calendar, ICS) des pagesUtilisation des parseurs
Ajoutez simplement l’ID du parseur au champ Parseur. Deux exemples :Intégration avec des applications populaires
Google Sheets
Parfait pour la collecte et le suivi des données :- Tableaux de suivi des prix
- Bases de données d’enrichissement de prospects
- Inventaire de contenu
- Feuilles d’analyse concurrentielle
Airtable
Construisez des bases de données puissantes avec des données scrappées :- Catalogues de produits
- Bases de données de recherche
- Calendriers de contenu
- Bases de données de liens
Slack
Recevez des notifications instantanées :- Alertes de baisse de prix
- Notifications de mise à jour de contenu
- Surveillance des erreurs
- Digests quotidiens
HubSpot / Salesforce
Enrichissez automatiquement les données CRM :- Enrichissement de prospects
- Recherche d’entreprise
- Intelligence concurrentielle
- Cartographie des comptes
Notion
Construisez des bases de connaissances :- Miroirs de documentation
- Répertoires de recherche
- Bibliothèques de contenu
- Wikis d’équipe
Bonnes pratiques
Utiliser le traitement par lots pour plusieurs URLs
Utiliser le traitement par lots pour plusieurs URLs
- Beaucoup plus rapide (traitement parallèle)
- Plus rentable
- Plus facile à gérer
- Meilleur pour les limites de taux
Définir des temps d'attente appropriés
Définir des temps d'attente appropriés
- Sites simples : 0-1000ms
- Sites dynamiques : 2000-3000ms
- JavaScript lourd : 5000-8000ms
Utiliser des parseurs spécialisés
Utiliser des parseurs spécialisés
- Obtenez automatiquement des données structurées
- Extraction plus fiable
- Pas besoin de parsing personnalisé
- Maintenu par Olostep
Filtrer avant de scraper
Filtrer avant de scraper
- Vérifiez si l’URL a changé
- Vérifiez que les données n’ont pas été scrappées récemment
- Appliquez la logique métier avant de scraper
Gérer les opérations asynchrones
Gérer les opérations asynchrones
- Stockez l’ID retourné (batch_id, crawl_id, map_id)
- Utilisez un nœud Attendre si vous récupérez immédiatement
- Envisagez des rappels de webhook pour la complétion
- Configurez des flux de travail séparés pour la récupération
Stocker correctement les résultats
Stocker correctement les résultats
- Google Sheets : Suivi simple, collaboration d’équipe
- Airtable : Données relationnelles, formatage riche
- Base de données : Grande échelle, requêtes complexes
- Notion : Base de connaissances, documentation
Surveiller et alerter
Surveiller et alerter
- Utilisez les flux de travail d’erreur dans n8n
- Envoyez des alertes à Slack/Email en cas d’échec
- Suivez l’utilisation de l’API dans le tableau de bord Olostep
- Enregistrez des métriques importantes
Cas d’utilisation courants par industrie
E-commerce
- Surveillance des prix : Suivez les prix des concurrents en temps réel
- Recherche de produits : Découvrez les produits tendance et les lacunes du marché
- Suivi des stocks : Surveillez la disponibilité des stocks
- Analyse des avis : Agrégez et analysez les avis des clients
Marketing & SEO
- Découverte de contenu : Trouvez des opportunités de contenu
- Analyse concurrentielle : Suivez les stratégies des concurrents
- Recherche de backlinks : Découvrez des opportunités de liens
- Recherche de mots-clés : Extrayez des données de mots-clés à partir des résultats de recherche
Ventes & Génération de prospects
- Enrichissement de prospects : Améliorez les données CRM avec des informations web
- Recherche d’entreprise : Rassemblez des renseignements sur les entreprises
- Découverte de contacts : Trouvez les décideurs
- Intelligence concurrentielle : Suivez les mouvements des concurrents
Recherche & Analyse
- Collecte de données : Rassemblez des données de multiples sources
- Recherche de marché : Suivez les tendances de l’industrie
- Recherche académique : Collectez des données de recherche
- Intelligence des prix : Analysez les stratégies de tarification
Médias & Édition
- Agrégation de contenu : Curatez du contenu de plusieurs sites
- Surveillance des actualités : Suivez les actualités et les mentions
- Médias sociaux : Surveillez les plateformes sociales
- Détection de tendances : Identifiez les sujets tendance
Dépannage
Échec de l'authentification
Échec de l'authentification
- Vérifiez la clé API depuis le tableau de bord
- Assurez-vous qu’il n’y a pas d’espaces supplémentaires dans la clé API
- Recréez l’information d’identification dans n8n
- Vérifiez que la clé API est active
Le scrape retourne un contenu vide
Le scrape retourne un contenu vide
- Augmentez le temps “Attendre avant de scraper”
- Vérifiez si le site web nécessite une connexion
- Essayez un format différent (HTML vs Markdown)
- Vérifiez que l’URL est accessible
- Vérifiez si le site bloque l’accès automatisé
Erreur de format de tableau de lot
Erreur de format de tableau de lot
- Utilisez le format :
[{"url":"https://example.com","custom_id":"id1"}] - Assurez-vous de la syntaxe JSON correcte
- Utilisez le nœud Code pour formater correctement les URLs
- Testez le JSON avec un validateur en ligne
Limite de taux dépassée
Limite de taux dépassée
- Espacer les exécutions de flux de travail avec des nœuds Attendre
- Utilisez le traitement par lots au lieu de scrapes individuels
- Mettez à niveau votre plan Olostep
- Vérifiez la limite de taux dans le tableau de bord
URL non scrappée
URL non scrappée
- Vérifiez le format de l’URL (inclure http:// ou https://)
- Vérifiez si l’URL nécessite une authentification
- Testez l’URL dans le navigateur d’abord
- Essayez avec le paramètre de pays
- Contactez le support pour les domaines bloqués
Avantages de n8n
Auto-hébergé
n8n est auto-hébergé, vous donnant un contrôle total sur vos flux de travail et vos données. Pas de verrouillage fournisseur, pas de données quittant votre infrastructure.Pas de limites de tâches
Contrairement aux plateformes d’automatisation basées sur le cloud, n8n n’impose pas de limites de tâches. Exécutez autant de flux de travail que vous le souhaitez sans coûts supplémentaires.Open Source
n8n est open source, vous permettant de le personnaliser et de l’étendre pour répondre à vos besoins spécifiques.Rentable
n8n auto-hébergé est gratuit, avec un hébergement cloud optionnel disponible. Payez uniquement pour l’utilisation de l’API Olostep.Tarification
Olostep facture en fonction de l’utilisation de l’API, indépendamment de n8n :- Scrapes : Payez par scrape
- Lots : Payez par URL dans le lot
- Crawls : Payez par page crawlée
- Cartes : Payez par opération de carte