Fonctionnalités
L’intégration fournit 4 API puissantes pour l’extraction automatisée de données web :Scraper un site web
Extraire le contenu d’une URL unique dans plusieurs formats (Markdown, HTML, JSON, texte)
Scraper des URLs en lot
Traiter jusqu’à 100 000 URLs en parallèle. Parfait pour l’extraction de données à grande échelle
Créer un crawl
Découvrir et scraper de manière autonome des sites web entiers en suivant les liens
Créer une carte
Extraire toutes les URLs d’un site web pour l’analyse de la structure du site et la découverte de contenu
Installation
Configuration
1. Installer le package
2. Importer et enregistrer l’intégration
Dans votre fichier de configuration Mastra :3. Configurer la clé API
Définissez votre clé API Olostep comme une variable d’environnement :.env :
APIs Disponibles
L’intégration expose 4 APIs que vos agents Mastra peuvent utiliser :scrapeWebsite
Extraire le contenu d’une URL unique. Prend en charge plusieurs formats et le rendu JavaScript. Cas d’utilisation :- Surveiller les changements sur des pages spécifiques
- Extraire des informations produit de sites e-commerce
- Rassembler des données d’articles de presse ou de blogs
- Extraire du contenu pour l’agrégation de contenu
Votre clé API Olostep
URL du site web à scraper (doit inclure http:// ou https://)
Formats de sortie : [‘html’, ‘markdown’, ‘json’, ‘text’]
Code pays pour le contenu spécifique à une localisation (ex : “US”, “GB”, “CA”)
Temps d’attente en millisecondes pour le rendu JavaScript (0-10000)
ID de parser optionnel pour une extraction spécialisée (ex : “@olostep/amazon-product”)
id- ID du scrapeurl_to_scrape- URL scrappéeresult.markdown_content- Contenu Markdownresult.html_content- Contenu HTMLresult.json_content- Contenu JSONresult.text_content- Contenu texteresult.screenshot_hosted_url- URL de capture d’écran (si disponible)result.markdown_hosted_url- URL hébergée du Markdownobject- Type d’objet (“scrape”)created- Timestamp Unix
batchScrape
Traiter plusieurs URLs en parallèle (jusqu’à 100 000 à la fois). Parfait pour l’extraction de données à grande échelle. Cas d’utilisation :- Scraper des catalogues de produits entiers
- Extraire des données de plusieurs résultats de recherche
- Traiter des listes d’URLs depuis des feuilles de calcul
- Extraction de contenu en masse
Votre clé API Olostep
Tableau d’objets avec les champs
url et custom_id optionnelExemple : [{"url":"https://example.com","custom_id":"site1"}]Formats de sortie pour toutes les URLs
Code pays pour le scraping spécifique à une localisation
Temps d’attente en millisecondes pour le rendu JavaScript
ID de parser optionnel pour une extraction spécialisée
batch_id- ID du lot (utilisez-le pour récupérer les résultats plus tard)status- Statut du traitementobject- Type d’objet (“batch”)
createCrawl
Découvrir et scraper de manière autonome des sites web entiers en suivant les liens. Parfait pour les sites de documentation, les blogs et les référentiels de contenu. Cas d’utilisation :- Crawler et archiver des sites de documentation entiers
- Extraire tous les articles de blog d’un site web
- Construire des bases de connaissances à partir de contenu web
- Surveiller les changements de structure de site
Votre clé API Olostep
URL de départ pour le crawl (doit inclure http:// ou https://)
Nombre maximum de pages à crawler
Si les liens trouvés sur les pages doivent être suivis
Format pour le contenu scrappé
Code pays optionnel pour le crawling spécifique à une localisation
ID de parser optionnel pour une extraction de contenu spécialisée
id- ID du crawl (utilisez-le pour récupérer les résultats plus tard)object- Type d’objet (“crawl”)status- Statut du crawlcreated- Timestamp Unix
createMap
Extraire toutes les URLs d’un site web pour la découverte de contenu et l’analyse de la structure du site. Cas d’utilisation :- Construire des sitemaps et des diagrammes de structure de site
- Découvrir toutes les pages avant le scraping en lot
- Trouver des pages cassées ou manquantes
- Audits et analyses SEO
Votre clé API Olostep
URL du site web pour extraire les liens (doit inclure http:// ou https://)
Requête de recherche optionnelle pour filtrer les URLs (ex : “blog”)
Limiter le nombre d’URLs retournées
Modèles globaux pour inclure des chemins spécifiques (ex : [“/blog/**”])
Modèles globaux pour exclure des chemins spécifiques (ex : [“/admin/**”])
id- ID de la carteobject- Type d’objet (“map”)url- URL du site webtotal_urls- Nombre total d’URLs trouvéesurls- Tableau d’URLs découvertes
Utilisation avec des Agents
Exemple d’Agent Basique
Créer un agent capable de scraper des sites web :Exemple de Workflow d’Agent
Construire un workflow de recherche qui découvre et scrape du contenu :Cas d’Utilisation Populaires
Agent de Recherche
Construire un agent qui recherche des sujets de manière autonome :Recherche Multi-Sources
Recherche Multi-Sources
Workflow :
- L’utilisateur demande : “Recherche les tendances IA”
- L’agent utilise
createMappour découvrir des pages pertinentes - L’agent utilise
batchScrapepour extraire le contenu - L’agent analyse et résume les résultats
- Retourne un rapport de recherche structuré
Surveillance des Concurrents
Surveillance des Concurrents
Workflow :
- Planifier une surveillance quotidienne
- Utiliser
scrapeWebsitepour vérifier les pages des concurrents - Comparer avec les données précédentes
- Alerter sur les changements significatifs
- Générer des rapports hebdomadaires
Agrégation de Contenu
Agrégation de Contenu
Workflow :
- Utiliser
createCrawlpour découvrir tous les articles de blog - Utiliser
batchScrapepour extraire le contenu - Traiter avec l’IA pour extraire les sujets clés
- Stocker dans une base de connaissances
- Générer un calendrier de contenu
Intelligence E-commerce
Surveiller les produits et les prix :Analyse SEO
Analyser la structure et le contenu d’un site web :Parsers Spécialisés
Olostep fournit des parsers pré-construits pour les sites web populaires. Utilisez-les avec le paramètreparser :
Recherche Google
@olostep/google-searchExtraire : résultats de recherche, titres, extraits, URLsGoogle Maps
@olostep/google-mapsExtraire : informations commerciales, avis, évaluations, localisationUtilisation des Parsers
Ajoutez l’ID du parser au paramètreparser :
Bonnes Pratiques
Utiliser le Traitement en Lot pour Plusieurs URLs
Utiliser le Traitement en Lot pour Plusieurs URLs
Lorsque vous scrapez plus de 3 à 5 URLs, utilisez
batchScrape au lieu de plusieurs appels scrapeWebsite. Le traitement en lot est :- Beaucoup plus rapide (traitement parallèle)
- Plus économique
- Plus facile à gérer
- Meilleur pour les limites de taux
Définir des Temps d'Attente Appropriés
Définir des Temps d'Attente Appropriés
Pour les sites riches en JavaScript, utilisez le paramètre
wait_before_scraping :- Sites simples : 0-1000ms
- Sites dynamiques : 2000-3000ms
- JavaScript lourd : 5000-8000ms
Utiliser des Parsers Spécialisés
Utiliser des Parsers Spécialisés
Pour les sites web populaires (Amazon, LinkedIn, Google), utilisez des parsers pré-construits :
- Obtenez des données structurées automatiquement
- Extraction plus fiable
- Pas besoin de parsing personnalisé
- Maintenu par Olostep
Gérer les Opérations Asynchrones
Gérer les Opérations Asynchrones
Les opérations Batch, Crawl et Map sont asynchrones :
- Stockez l’ID retourné (batch_id, crawl_id, map_id)
- Interrogez pour la complétion ou utilisez des webhooks
- Configurez des workflows séparés pour la récupération
Gestion des Erreurs
Gestion des Erreurs
Enveloppez toujours les appels API dans des blocs try-catch :
Limitation de Taux
Limitation de Taux
Soyez attentif aux limites de taux :
- Espacer les requêtes avec des délais
- Utiliser le traitement en lot lorsque c’est possible
- Surveiller l’utilisation dans le tableau de bord Olostep
- Mettre à niveau le plan si nécessaire
Exemple Complet
Voici un exemple complet de construction d’un agent de recherche :Dépannage
Échec de l'Authentification
Échec de l'Authentification
Erreur : “Clé API invalide”Solutions :
- Vérifiez la clé API depuis le tableau de bord
- Assurez-vous que la clé API est définie dans la variable d’environnement
- Vérifiez que la clé API est active
- Vérifiez qu’il n’y a pas d’espaces supplémentaires dans la clé API
API Non Trouvée
API Non Trouvée
Erreur : “API non trouvée” ou “Intégration non enregistrée”Solutions :
- Assurez-vous que
registerApis()est appelé après la création de l’intégration - Vérifiez que l’intégration est ajoutée à la configuration Mastra
- Vérifiez que le nom de l’intégration est ‘olostep’
- Redémarrez le serveur Mastra après les modifications
Le Scrape Retourne un Contenu Vide
Le Scrape Retourne un Contenu Vide
Erreur : Les champs de contenu sont videsSolutions :
- Augmentez le temps
wait_before_scraping - Vérifiez si le site web nécessite une connexion
- Essayez un format différent (HTML vs Markdown)
- Vérifiez que l’URL est accessible
- Vérifiez si le site bloque l’accès automatisé
Limite de Taux Dépassée
Limite de Taux Dépassée
Erreur : “Limite de taux dépassée”Solutions :
- Espacer les requêtes avec des délais
- Utiliser le traitement en lot au lieu de scrapes individuels
- Mettre à niveau votre plan Olostep
- Vérifiez la limite de taux dans le tableau de bord
Erreurs TypeScript
Erreurs TypeScript
Erreur : Module non trouvé ou erreurs de typeSolutions :
- Assurez-vous que
@mastra/coreest installé - Vérifiez la compatibilité de la version TypeScript
- Vérifiez que toutes les dépendances sont installées
- Rebuild :
npm run build
Tarification
Olostep facture en fonction de l’utilisation de l’API, indépendamment de Mastra :- Scrapes : Paiement par scrape
- Lots : Paiement par URL dans le lot
- Crawls : Paiement par page crawlée
- Cartes : Paiement par opération de carte
Support
Besoin d’aide avec l’intégration Mastra ?Documentation
Parcourir la documentation complète de l’API
Email de Support
Email : info@olostep.com
Docs Mastra
En savoir plus sur le framework Mastra
Ressources Associées
API Scrapes
En savoir plus sur le point de terminaison Scrapes
API Batches
En savoir plus sur le point de terminaison Batches
API Crawls
En savoir plus sur le point de terminaison Crawls
API Maps
En savoir plus sur le point de terminaison Maps
Intégration Zapier
Automatiser avec les workflows Zapier
Intégration LangChain
Construire des agents IA avec LangChain
Site Web Mastra
Plateforme Mastra
Commencer
Prêt à construire des agents IA avec des capacités de scraping web ?Installer le Package
Installer @olostep/mastra-tools depuis npm