Fonctionnalités
L’intégration donne accès aux 5 capacités de l’API Olostep :Scrapes
Extraire le contenu de n’importe quelle URL unique dans plusieurs formats (Markdown, HTML, JSON, texte)
Batches
Traiter jusqu’à 10 000 URLs en parallèle. Les tâches par lot se terminent en 5-8 minutes
Answers
Recherche web alimentée par l’IA avec des requêtes en langage naturel et un résultat structuré
Maps
Extraire toutes les URLs d’un site web pour l’analyse de la structure du site
Crawls
Découvrir et scraper de manière autonome des sites web entiers en suivant les liens
Installation
Configuration
Définis ta clé API Olostep comme une variable d’environnement :Outils Disponibles
scrape_website
Extraire le contenu d’une URL unique. Prend en charge plusieurs formats et le rendu JavaScript.URL du site web à scraper (doit inclure http:// ou https://)
Format de sortie :
markdown, html, json, ou textCode du pays pour le contenu spécifique à la localisation (par ex., “US”, “GB”, “CA”)
Temps d’attente en millisecondes pour le rendu JavaScript (0-10000)
ID de parser optionnel pour l’extraction spécialisée (par ex., “@olostep/amazon-product”)
scrape_batch
Traiter plusieurs URLs en parallèle (jusqu’à 10 000 à la fois).Liste des URLs à scraper
Format de sortie pour toutes les URLs :
markdown, html, json, ou textCode du pays pour le contenu spécifique à la localisation
Temps d’attente en millisecondes pour le rendu JavaScript
ID de parser optionnel pour l’extraction spécialisée
answer_question
Rechercher sur le web et obtenir des réponses alimentées par l’IA avec des sources. Parfait pour l’enrichissement de données et la recherche.Question ou tâche à rechercher
Dictionnaire/chaîne JSON optionnel décrivant le format de sortie souhaité
extract_urls
Extraire toutes les URLs d’un site web pour l’analyse de la structure du site.URL du site web pour extraire les URLs
Requête de recherche optionnelle pour filtrer les URLs
Limiter le nombre d’URLs retournées
Modèles globaux à inclure (par ex., [“/blog/**”])
Modèles globaux à exclure (par ex., [“/admin/**”])
crawl_website
Découvrir et scraper de manière autonome des sites web entiers en suivant les liens.URL de départ pour le crawl
Nombre maximum de pages à crawler
Modèles globaux à inclure (par ex., [”/**”] pour tout)
Modèles globaux à exclure (par ex., [“/admin/**”])
Profondeur maximale à crawler depuis start_url
Inclure les URLs externes
Intégration de l’Agent LangChain
Construisez des agents intelligents capables de rechercher et scraper le web :Intégration LangGraph
Construisez des workflows complexes en plusieurs étapes avec LangGraph :Cas d’Utilisation Avancés
Enrichissement de Données
Enrichir les données de feuille de calcul avec des informations web :Scraping de Produits E-commerce
Scraper les données de produits avec des parsers spécialisés :Audit SEO
Analyser des sites web entiers pour le SEO :Scraping de Documentation
Crawler et extraire la documentation :Parsers Spécialisés
Olostep fournit des parsers pré-construits pour les sites populaires :@olostep/google-search- Résultats de recherche Google
parser :
Gestion des Erreurs
Bonnes Pratiques
Utiliser le Traitement par Lots pour Plusieurs URLs
Utiliser le Traitement par Lots pour Plusieurs URLs
Lorsque tu scrapes plus de 3-5 URLs, utilise
scrape_batch au lieu de multiples appels scrape_website. Le traitement par lots est beaucoup plus rapide et plus rentable.Définir des Délais Appropriés
Définir des Délais Appropriés
Pour les sites riches en JavaScript, utilise le paramètre
wait_before_scraping (2000-5000ms est typique). Cela garantit que le contenu dynamique est entièrement chargé.Utiliser des Parsers Spécialisés
Utiliser des Parsers Spécialisés
Pour les sites populaires (Amazon, LinkedIn, Google), utilise nos parsers pré-construits pour obtenir automatiquement des données structurées.
Filtrer les URLs Efficacement
Filtrer les URLs Efficacement
Lorsque tu utilises
extract_urls ou crawl_website, utilise des modèles globaux pour te concentrer sur les pages pertinentes et éviter un traitement inutile.Gérer les Limites de Taux
Gérer les Limites de Taux
Implémente un backoff exponentiel pour les erreurs de limite de taux. L’API gère automatiquement la plupart des limitations de taux en interne.
Support
- Package PyPI : langchain-olostep
- Documentation : docs.olostep.com
- Problèmes : GitHub Issues
- Email : info@olostep.com
Ressources Connexes
Scrapes API
En savoir plus sur l’endpoint Scrapes
Batches API
En savoir plus sur l’endpoint Batches
Answers API
En savoir plus sur l’endpoint Answers
Maps API
En savoir plus sur l’endpoint Maps
Crawls API
En savoir plus sur l’endpoint Crawls
Python SDK
Explorer le SDK Python
LangChain Website
Plateforme LangChain