Passer au contenu principal
L’intégration Olostep avec n8n apporte des capacités puissantes de recherche web, de scraping et de crawling aux flux de travail n8n. Construisez des flux de travail automatisés qui recherchent, extraient et structurent des données web de n’importe quel site sans écrire de code. Commencez avec Olostep sur n8n →

Fonctionnalités

L’intégration offre 6 opérations puissantes pour l’extraction automatisée de données web :

Scraper un site web

Extraire le contenu de n’importe quelle URL unique dans plusieurs formats (Markdown, HTML, JSON, texte)

Rechercher

Recherchez sur le Web et obtenez des résultats structurés

Réponses (IA)

Recherchez sur le Web avec l’IA et obtenez des réponses structurées avec sources et citations

Scraper des URLs en lot

Scrapez jusqu’à 10 000 URLs en même temps. Parfait pour l’extraction de données à grande échelle

Créer un Crawl

Obtenez le contenu des sous-pages d’une URL. Découvrez et scrapez de manière autonome des sites entiers

Créer une Carte

Obtenez toutes les URLs d’un site web pour l’analyse de la structure du site et la découverte de contenu

Installation

1. Installer le Nœud

Installez le package de nœud Olostep via npm :
npm install n8n-nodes-olostep
Ensuite, redémarrez n8n pour charger le nouveau nœud. Alternativement, suivez le guide d’installation des nœuds communautaires n8n pour des instructions détaillées.

2. Connectez votre compte

Lorsque vous utilisez pour la première fois le nœud Olostep dans un flux de travail, vous devrez configurer les informations d’identification :
  1. Ajoutez le nœud “Olostep Scrape” à votre flux de travail
  2. Cliquez sur le nœud pour ouvrir ses paramètres
  3. Cliquez sur “Créer une nouvelle information d’identification” ou sélectionnez des informations d’identification existantes
  4. Entrez votre clé API Olostep
  5. Cliquez sur “Enregistrer” pour stocker l’information d’identification
Obtenez votre clé API depuis le Tableau de bord Olostep.

Actions Disponibles

Scraper un site web

Extraire le contenu d’une URL unique. Prend en charge plusieurs formats et le rendu JavaScript. Cas d’utilisation :
  • Surveiller les changements sur des pages spécifiques
  • Extraire des informations produit de sites e-commerce
  • Rassembler des données d’articles de presse ou de blogs
  • Récupérer du contenu pour l’agrégation de contenu
Configuration :
URL à scraper
string
requis
URL du site web à scraper (doit inclure http:// ou https://)
Format de sortie
dropdown
défaut:"Markdown"
Choisissez le format : Markdown, HTML, JSON ou Texte brut
Code pays
string
Code pays pour le contenu spécifique à la localisation (par exemple, “US”, “GB”, “CA”)
Attendre avant de scraper
integer
Temps d’attente en millisecondes pour le rendu JavaScript (0-10000)
Parseur
string
ID de parseur optionnel pour une extraction spécialisée (par exemple, “@olostep/amazon-product”)
Champs de sortie :
  • ID du scrape
  • URL scrappée
  • Contenu Markdown
  • Contenu HTML
  • Contenu JSON
  • Contenu texte
  • Statut
  • Horodatage
  • URL de capture d’écran (si disponible)
  • Métadonnées de la page
Exemples de flux de travail :
Déclencheur : Planification (Tous les jours à 9h)Action : Olostep - Scraper un site web
  • URL : Page produit du concurrent
  • Format : JSON
  • Parseur : @olostep/amazon-product
Action : Google Sheets - Ajouter une ligne
  • Ajouter les données de prix au tableau de suivi
Action : Email - Envoyer un email (si le prix baisse)
  • Alerter l’équipe des changements de prix
Déclencheur : Flux RSS - Nouvel élémentAction : Olostep - Scraper un site web
  • URL : {{$json.link}}
  • Format : Markdown
Action : Notion - Créer une page
  • Enregistrer le contenu de l’article dans la base de données Notion
Déclencheur : Google Sheets - Nouvelle ligneAction : Olostep - Scraper un site web
  • URL : Site web de l’entreprise depuis la feuille
  • Format : Markdown
Action : OpenAI - Compléter le texte
  • Extraire les informations de l’entreprise à l’aide de l’IA
Action : Google Sheets - Mettre à jour la ligne
  • Ajouter les données enrichies à la feuille

Rechercher

Recherchez sur le Web pour une requête donnée et obtenez des résultats structurés (résultats de recherche basés sur un parseur, non-IA). Cas d’utilisation :
  • Flux de travail de recherche automatisée
  • Découverte et enrichissement de prospects
  • Analyse concurrentielle
  • Recherche de contenu
Configuration :
Requête
string
requis
Requête de recherche
Sortie : Renvoie des résultats de recherche structurés sous forme de JSON avec titres, URLs, extraits et métadonnées. Exemples de flux de travail :
Déclencheur : Planification (Tous les jours à 8h)Action : Olostep - Rechercher
  • Requête : “derniers développements en IA”
Action : Code - Traiter les résultats
  • Extraire et formater les informations clés
Action : Notion - Créer des pages
  • Stocker les résultats de recherche
Déclencheur : Manuel (Bouton)Action : Olostep - Rechercher
  • Requête : ”{{$json.searchTerm}}”
Action : Airtable - Créer des enregistrements
  • Stocker les prospects avec les informations de contact

Scraper des URLs en lot

Scrapez jusqu’à 10 000 URLs en même temps. Parfait pour l’extraction de données à grande échelle. Cas d’utilisation :
  • Scraper des catalogues de produits entiers
  • Extraire des données de plusieurs résultats de recherche
  • Traiter des listes d’URLs depuis des feuilles de calcul
  • Extraction de contenu en masse
Configuration :
URLs à scraper
text
requis
Tableau JSON d’objets avec les champs url et custom_id.Exemple : [{"url":"https://example.com","custom_id":"site1"}]
Format de sortie
dropdown
défaut:"Markdown"
Choisissez le format pour toutes les URLs : Markdown, HTML, JSON ou Texte brut
Code pays
string
Code pays pour le scraping spécifique à la localisation
Attendre avant de scraper
integer
Temps d’attente en millisecondes pour le rendu JavaScript
Parseur
string
ID de parseur optionnel pour une extraction spécialisée
Champs de sortie :
  • ID du lot (utilisez ceci pour récupérer les résultats plus tard)
  • Statut
  • Total des URLs
  • Créé à
  • Format demandé
  • Code pays
  • Parseur utilisé
Exemples de flux de travail :
Déclencheur : Webhook - Recevoir une requête POSTAction : Code - Formater les URLs
  • Convertir CSV/liste en format tableau JSON
Action : Olostep - Scraper des URLs en lot
  • URLs : {{$json.urlArray}}
  • Format : JSON
  • Parseur : @olostep/amazon-product
Action : Webhook - POST
  • Envoyer l’ID du lot à votre système pour récupération
Déclencheur : Planification - Tous les jours à 6hAction : Google Sheets - Lire les lignes
  • Récupérer les URLs à surveiller
Action : Code - Formater les URLs
  • Convertir en format tableau de lot
Action : Olostep - Scraper des URLs en lot
  • Traiter toutes les URLs en une seule fois
Action : Slack - Envoyer un message
  • Notifier l’équipe que le scraping est terminé

Créer un Crawl

Obtenez le contenu des sous-pages d’une URL. Découvrez et scrapez de manière autonome des sites entiers en suivant les liens. Parfait pour les sites de documentation, les blogs et les référentiels de contenu. Cas d’utilisation :
  • Crawler et archiver des sites de documentation entiers
  • Extraire tous les articles de blog d’un site web
  • Construire des bases de connaissances à partir de contenu web
  • Surveiller les changements de structure de site
Configuration :
URL de départ
string
requis
URL de départ pour le crawl (doit inclure http:// ou https://)
Nombre maximum de pages
integer
défaut:"10"
Nombre maximum de pages à crawler
Suivre les liens
boolean
défaut:"true"
Si les liens trouvés sur les pages doivent être suivis
Format de sortie
dropdown
défaut:"Markdown"
Format pour le contenu scrappé
Code pays
string
Code pays optionnel pour le crawling spécifique à la localisation
Parseur
string
ID de parseur optionnel pour l’extraction de contenu spécialisée
Champs de sortie :
  • ID du crawl (utilisez ceci pour récupérer les résultats plus tard)
  • Type d’objet
  • Statut
  • URL de départ
  • Nombre maximum de pages
  • Suivre les liens
  • Horodatage de création
  • Formats
Exemples de flux de travail :
Déclencheur : Planification - Mensuellement le 1er à minuitAction : Olostep - Créer un CrawlAction : Webhook - POST
  • Envoyer l’ID du crawl à votre système d’archivage
Action : Slack - Envoyer un message
  • Notifier l’équipe que le crawl est en cours
Déclencheur : Planification - Hebdomadaire le lundi à 9hAction : Olostep - Créer un Crawl
  • URL de départ : URL du blog du concurrent
  • Pages max : 100
  • Format : Markdown
Action : Attendre - Pendant 10 minutes
  • Attendre que le crawl soit terminé
Action : Airtable - Créer des enregistrements
  • Stocker les données du crawl pour analyse

Créer une Carte

Obtenez toutes les URLs d’un site web. Extraire toutes les URLs d’un site web pour la découverte de contenu et l’analyse de la structure du site. Cas d’utilisation :
  • Construire des sitemaps et des diagrammes de structure de site
  • Découvrir toutes les pages avant le scraping en lot
  • Trouver des pages cassées ou manquantes
  • Audits SEO et analyses
Configuration :
URL du site web
string
requis
URL du site web pour extraire les liens (doit inclure http:// ou https://)
Requête de recherche
string
Requête de recherche optionnelle pour filtrer les URLs (par exemple, “blog”)
Top N URLs
integer
Limiter le nombre d’URLs retournées
Inclure les motifs d'URL
string
Motifs globaux pour inclure des chemins spécifiques (par exemple, “/blog/**”)
Exclure les motifs d'URL
string
Motifs globaux pour exclure des chemins spécifiques (par exemple, “/admin/**”)
Champs de sortie :
  • ID de la carte
  • Type d’objet
  • URL du site web
  • Total des URLs trouvées
  • URLs (tableau JSON)
  • Requête de recherche
  • Limite Top N
Exemples de flux de travail :
Déclencheur : Manuel (Bouton)Action : Olostep - Créer une CarteAction : Code - Extraire les URLs
  • Analyser les URLs à partir du résultat de la carte
Action : Olostep - Scraper des URLs en lot
  • URLs : {{$json.urls}}
  • Format : JSON
Action : Google Sheets - Ajouter des lignes
  • Ajouter toutes les données produit à la feuille de calcul
Déclencheur : Planification - MensuellementAction : Olostep - Créer une Carte
  • URL : Votre site web
  • Top N : 1000
Action : Airtable - Créer des enregistrements
  • Stocker toutes les URLs pour le suivi
Action : Slack - Envoyer un message
  • Rapporter le nombre total de pages trouvées

Exemples de flux de travail populaires

Surveillance des prix en e-commerce

Surveillez les prix des concurrents et recevez des alertes instantanées :
Déclencheur : Planification (Toutes les heures)

Action : Olostep - Scraper un site web
  - URL : Page produit du concurrent
  - Format : JSON
  - Parseur : @olostep/amazon-product

Action : SI - Vérifier si le prix a changé

Action : Slack - Envoyer un message
  - Alerte : "Le prix a changé à $\{\{price\}\}"

Agrégation de contenu

Agréguez du contenu de plusieurs sources :
Déclencheur : Google Sheets - Nouvelle ligne

Action : Olostep - Scraper un site web
  - URL : \{\{$json.url\}\}
  - Format : Markdown

Action : OpenAI - Résumer
  - Résumer le contenu

Action : Airtable - Créer un enregistrement
  - Stocker l'article avec le résumé

Pipeline d’enrichissement de prospects

Enrichissez les données de prospects avec des informations web :
Déclencheur : HubSpot - Nouveau contact

Action : Olostep - Scraper un site web
  - URL : \{\{$json.companyWebsite\}\}
  - Format : Markdown

Action : OpenAI - Extraire les données
  - Extraire : taille de l'entreprise, secteur, produits

Action : HubSpot - Mettre à jour le contact
  - Ajouter les données enrichies au contact

Automatisation de la recherche

Automatisez la recherche à partir de plusieurs sources :
Déclencheur : Airtable - Nouvel enregistrement

Action : Olostep - Créer une Carte
  - URL : Site cible de recherche
  - Inclure : /research/**

Action : Code - Analyser les URLs

Action : Olostep - Scraper des URLs en lot
  - URLs : \{\{$json.discoveredUrls\}\}
  - Format : Markdown

Action : Notion - Créer des pages
  - Créer une base de données de recherche

Surveillance des médias sociaux

Suivez les mentions et le contenu :
Déclencheur : Planification (Toutes les 6 heures)

Action : Olostep - Scraper un site web
  - URL : Page de recherche du site d'actualités
  - Format : HTML

Action : Code - Extraire les mentions
  - Trouver les mentions de la marque

Action : Google Sheets - Ajouter une ligne
  - Enregistrer les mentions avec l'horodatage

Flux de travail multi-étapes

Pipeline complet de scraping de produits

Construisez un pipeline complet de données produit :
1

Découvrir les URLs de produits

Utilisez Créer une Carte pour trouver toutes les pages produit sur le site cible
  • Inclure les motifs : /products/**
  • Exclure les motifs : /cart/**, /checkout/**
2

Traiter les produits en lot

Utilisez Scraper des URLs en lot pour extraire toutes les données produit
  • Format : JSON
  • Parseur : Parseur spécifique au produit si disponible
3

Stocker dans la base de données

Envoyez l’ID du lot à votre système ou attendez et récupérez les résultats
  • Utilisez Airtable, Google Sheets ou votre base de données
4

Surveiller les changements

Planifiez des scrapes quotidiens pour suivre les changements de prix/disponibilité
  • Comparez avec les données existantes
  • Alertez sur les changements significatifs

Stratégie de contenu SEO

Analysez les concurrents et planifiez le contenu :
1

Cartographier les sites concurrents

Utilisez Créer une Carte sur les sites concurrents
  • Extraire tous les articles de blog et les pages de contenu
2

Scraper le contenu

Utilisez Scraper des URLs en lot pour obtenir le contenu complet
  • Format : Markdown pour une analyse facile
3

Analyse IA

Utilisez OpenAI pour analyser les sujets et les mots-clés
  • Identifier les lacunes de contenu
  • Trouver les sujets tendance
4

Créer un calendrier de contenu

Ajoutez les insights à Notion ou Airtable
  • Planifiez votre stratégie de contenu

Parseurs spécialisés

Olostep fournit des parseurs préconstruits pour les sites populaires. Utilisez-les avec le champ Parseur :

Produit Amazon

@olostep/amazon-productExtraire : titre, prix, note, avis, images, variantes

Recherche Google

@olostep/google-searchExtraire : résultats de recherche, titres, extraits, URLs

Google Maps

@olostep/google-mapsExtraire : infos entreprise, avis, notes, localisation

Extraire les emails

@olostep/extract-emailsExtraire : emails des pages, listes de contacts, et pieds de page

Extraire les réseaux sociaux

@olostep/extract-socialsExtraire : liens de profils sociaux (X/Twitter, GitHub, etc.)

Extraire les calendriers

@olostep/extract-calendarsExtraire : liens de calendriers (Google Calendar, ICS) des pages

Utilisation des parseurs

Ajoutez simplement l’ID du parseur au champ Parseur. Deux exemples :
Action : Olostep - Scraper un site web
  - URL : https://www.amazon.com/dp/PRODUCT_ID
  - Format : JSON
  - Parseur : @olostep/amazon-product
Action : Olostep - Scraper un site web
  - URL : https://example.com/contact
  - Format : JSON
  - Parseur : @olostep/extract-emails
Le parseur extrait automatiquement des données structurées spécifiques à la tâche.

Intégration avec des applications populaires

Google Sheets

Parfait pour la collecte et le suivi des données :
1. Olostep scrape le site web
2. Filtrer ou transformer les données
3. Google Sheets - Ajouter une ligne
Cas d’utilisation :
  • Tableaux de suivi des prix
  • Bases de données d’enrichissement de prospects
  • Inventaire de contenu
  • Feuilles d’analyse concurrentielle

Airtable

Construisez des bases de données puissantes avec des données scrappées :
1. Olostep scrape ou crawl
2. Code - Formater les données
3. Airtable - Créer des enregistrements
Cas d’utilisation :
  • Catalogues de produits
  • Bases de données de recherche
  • Calendriers de contenu
  • Bases de données de liens

Slack

Recevez des notifications instantanées :
1. Olostep surveille la page
2. SI - Vérifier les changements
3. Slack - Envoyer un message
Cas d’utilisation :
  • Alertes de baisse de prix
  • Notifications de mise à jour de contenu
  • Surveillance des erreurs
  • Digests quotidiens

HubSpot / Salesforce

Enrichissez automatiquement les données CRM :
1. Nouveau contact ajouté
2. Olostep scrape le site web de l'entreprise
3. OpenAI extrait les informations clés
4. CRM - Mettre à jour le contact
Cas d’utilisation :
  • Enrichissement de prospects
  • Recherche d’entreprise
  • Intelligence concurrentielle
  • Cartographie des comptes

Notion

Construisez des bases de connaissances :
1. Olostep crawl la documentation
2. Code - Analyser le contenu
3. Notion - Créer des pages
Cas d’utilisation :
  • Miroirs de documentation
  • Répertoires de recherche
  • Bibliothèques de contenu
  • Wikis d’équipe

Bonnes pratiques

Lorsque vous scrapez plus de 3-5 URLs, utilisez Scraper des URLs en lot au lieu de plusieurs actions Scraper un site web. Le traitement par lots est :
  • Beaucoup plus rapide (traitement parallèle)
  • Plus rentable
  • Plus facile à gérer
  • Meilleur pour les limites de taux
Pour les sites lourds en JavaScript, utilisez le paramètre “Attendre avant de scraper” :
  • Sites simples : 0-1000ms
  • Sites dynamiques : 2000-3000ms
  • JavaScript lourd : 5000-8000ms
Testez avec différentes valeurs pour trouver le temps d’attente optimal.
Utilisez des parseurs préconstruits (par exemple, Amazon, Google, et des parseurs spécifiques aux tâches du magasin Olostep comme les emails, les réseaux sociaux, les calendriers) :
  • Obtenez automatiquement des données structurées
  • Extraction plus fiable
  • Pas besoin de parsing personnalisé
  • Maintenu par Olostep
Utilisez le nœud IF de n8n pour éviter les scrapes inutiles :
  • Vérifiez si l’URL a changé
  • Vérifiez que les données n’ont pas été scrappées récemment
  • Appliquez la logique métier avant de scraper
Cela économise des crédits API et du temps d’exécution.
Les opérations de lot, de crawl et de carte sont asynchrones :
  • Stockez l’ID retourné (batch_id, crawl_id, map_id)
  • Utilisez un nœud Attendre si vous récupérez immédiatement
  • Envisagez des rappels de webhook pour la complétion
  • Configurez des flux de travail séparés pour la récupération
Choisissez le bon stockage en fonction de vos besoins :
  • Google Sheets : Suivi simple, collaboration d’équipe
  • Airtable : Données relationnelles, formatage riche
  • Base de données : Grande échelle, requêtes complexes
  • Notion : Base de connaissances, documentation
Configurez la surveillance pour vos flux de travail de scraping :
  • Utilisez les flux de travail d’erreur dans n8n
  • Envoyez des alertes à Slack/Email en cas d’échec
  • Suivez l’utilisation de l’API dans le tableau de bord Olostep
  • Enregistrez des métriques importantes

Cas d’utilisation courants par industrie

E-commerce

  • Surveillance des prix : Suivez les prix des concurrents en temps réel
  • Recherche de produits : Découvrez les produits tendance et les lacunes du marché
  • Suivi des stocks : Surveillez la disponibilité des stocks
  • Analyse des avis : Agrégez et analysez les avis des clients

Marketing & SEO

  • Découverte de contenu : Trouvez des opportunités de contenu
  • Analyse concurrentielle : Suivez les stratégies des concurrents
  • Recherche de backlinks : Découvrez des opportunités de liens
  • Recherche de mots-clés : Extrayez des données de mots-clés à partir des résultats de recherche

Ventes & Génération de prospects

  • Enrichissement de prospects : Améliorez les données CRM avec des informations web
  • Recherche d’entreprise : Rassemblez des renseignements sur les entreprises
  • Découverte de contacts : Trouvez les décideurs
  • Intelligence concurrentielle : Suivez les mouvements des concurrents

Recherche & Analyse

  • Collecte de données : Rassemblez des données de multiples sources
  • Recherche de marché : Suivez les tendances de l’industrie
  • Recherche académique : Collectez des données de recherche
  • Intelligence des prix : Analysez les stratégies de tarification

Médias & Édition

  • Agrégation de contenu : Curatez du contenu de plusieurs sites
  • Surveillance des actualités : Suivez les actualités et les mentions
  • Médias sociaux : Surveillez les plateformes sociales
  • Détection de tendances : Identifiez les sujets tendance

Dépannage

Erreur : “Clé API invalide”Solutions :
  • Vérifiez la clé API depuis le tableau de bord
  • Assurez-vous qu’il n’y a pas d’espaces supplémentaires dans la clé API
  • Recréez l’information d’identification dans n8n
  • Vérifiez que la clé API est active
Erreur : Les champs de contenu sont videsSolutions :
  • Augmentez le temps “Attendre avant de scraper”
  • Vérifiez si le site web nécessite une connexion
  • Essayez un format différent (HTML vs Markdown)
  • Vérifiez que l’URL est accessible
  • Vérifiez si le site bloque l’accès automatisé
Erreur : “Format JSON invalide pour le tableau de lot”Solutions :
  • Utilisez le format : [{"url":"https://example.com","custom_id":"id1"}]
  • Assurez-vous de la syntaxe JSON correcte
  • Utilisez le nœud Code pour formater correctement les URLs
  • Testez le JSON avec un validateur en ligne
Erreur : “Limite de taux dépassée”Solutions :
  • Espacer les exécutions de flux de travail avec des nœuds Attendre
  • Utilisez le traitement par lots au lieu de scrapes individuels
  • Mettez à niveau votre plan Olostep
  • Vérifiez la limite de taux dans le tableau de bord
Erreur : Certaines URLs échouent à être scrappéesSolutions :
  • Vérifiez le format de l’URL (inclure http:// ou https://)
  • Vérifiez si l’URL nécessite une authentification
  • Testez l’URL dans le navigateur d’abord
  • Essayez avec le paramètre de pays
  • Contactez le support pour les domaines bloqués

Avantages de n8n

Auto-hébergé

n8n est auto-hébergé, vous donnant un contrôle total sur vos flux de travail et vos données. Pas de verrouillage fournisseur, pas de données quittant votre infrastructure.

Pas de limites de tâches

Contrairement aux plateformes d’automatisation basées sur le cloud, n8n n’impose pas de limites de tâches. Exécutez autant de flux de travail que vous le souhaitez sans coûts supplémentaires.

Open Source

n8n est open source, vous permettant de le personnaliser et de l’étendre pour répondre à vos besoins spécifiques.

Rentable

n8n auto-hébergé est gratuit, avec un hébergement cloud optionnel disponible. Payez uniquement pour l’utilisation de l’API Olostep.

Tarification

Olostep facture en fonction de l’utilisation de l’API, indépendamment de n8n :
  • Scrapes : Payez par scrape
  • Lots : Payez par URL dans le lot
  • Crawls : Payez par page crawlée
  • Cartes : Payez par opération de carte
Consultez la tarification actuelle sur olostep.com/pricing. n8n : n8n auto-hébergé est gratuit. Hébergement cloud disponible avec des plans payants optionnels.

Support

Besoin d’aide avec l’intégration n8n ?

Ressources connexes

Commencez

Prêt à automatiser vos flux de travail de recherche web, de scraping et de crawling ?

Installer le nœud

Installez n8n-nodes-olostep et commencez à construire des flux de travail automatisés
Connectez Olostep avec n8n et automatisez dès aujourd’hui votre extraction de données web !