Fonctionnalités
L’intégration donne accès aux 5 capacités de l’API Olostep :Scrapes
Extraire le contenu de n’importe quelle URL unique dans plusieurs formats (Markdown, HTML, JSON, texte)
Batches
Traiter jusqu’à 10 000 URLs en parallèle. Les travaux par lots se terminent en 5-8 minutes
Answers
Recherche web alimentée par l’IA avec des requêtes en langage naturel et des résultats structurés
Maps
Extraire toutes les URLs d’un site web pour l’analyse de la structure du site
Crawls
Découvrir et scraper de manière autonome des sites web entiers en suivant les liens
Installation
Configuration
Définissez votre clé API Olostep comme une variable d’environnement :Outils Disponibles
scrape_website
Extraire le contenu d’une URL unique. Prend en charge plusieurs formats et le rendu JavaScript.URL du site web à scraper (doit inclure http:// ou https://)
Format de sortie :
markdown, html, json, ou textCode du pays pour le contenu spécifique à une localisation (par ex., “US”, “GB”, “CA”)
Temps d’attente en millisecondes pour le rendu JavaScript (0-10000)
ID de parseur optionnel pour une extraction spécialisée (par ex., “@olostep/amazon-product”)
scrape_batch
Traiter plusieurs URLs en parallèle (jusqu’à 10 000 à la fois).Liste des URLs à scraper
Format de sortie pour toutes les URLs :
markdown, html, json, ou textCode du pays pour le contenu spécifique à une localisation
Temps d’attente en millisecondes pour le rendu JavaScript
ID de parseur optionnel pour une extraction spécialisée
answer_question
Rechercher sur le web et obtenir des réponses alimentées par l’IA avec des sources. Parfait pour l’enrichissement de données et la recherche.Question ou tâche à rechercher
Dictionnaire/chaîne JSON optionnel décrivant le format de sortie souhaité
extract_urls
Extraire toutes les URLs d’un site web pour l’analyse de la structure du site.URL du site web pour extraire les URLs
Requête de recherche optionnelle pour filtrer les URLs
Limiter le nombre d’URLs retournées
Modèles globaux à inclure (par ex., [“/blog/**”])
Modèles globaux à exclure (par ex., [“/admin/**”])
crawl_website
Découvrir et scraper de manière autonome des sites web entiers en suivant les liens.URL de départ pour le crawl
Nombre maximum de pages à crawler
Modèles globaux à inclure (par ex., [”/**”] pour tout)
Modèles globaux à exclure (par ex., [“/admin/**”])
Profondeur maximale à crawler depuis start_url
Inclure les URLs externes
Intégration de l’Agent LangChain
Construisez des agents intelligents capables de rechercher et scraper le web :Intégration LangGraph
Construisez des workflows complexes en plusieurs étapes avec LangGraph :Cas d’Utilisation Avancés
Enrichissement de Données
Enrichir les données de feuille de calcul avec des informations web :Scraping de Produits E-commerce
Scraper les données de produits avec des parseurs spécialisés :Audit SEO
Analyser des sites web entiers pour le SEO :Scraping de Documentation
Crawler et extraire de la documentation :Parseurs Spécialisés
Olostep fournit des parseurs pré-construits pour les sites web populaires :@olostep/google-search- Résultats de recherche Google
parser :
Gestion des Erreurs
Bonnes Pratiques
Utiliser le Traitement par Lots pour Plusieurs URLs
Utiliser le Traitement par Lots pour Plusieurs URLs
Lorsque vous scrapez plus de 3-5 URLs, utilisez
scrape_batch au lieu de plusieurs appels scrape_website. Le traitement par lots est beaucoup plus rapide et plus économique.Définir des Délais Appropriés
Définir des Délais Appropriés
Pour les sites riches en JavaScript, utilisez le paramètre
wait_before_scraping (2000-5000ms est typique). Cela garantit que le contenu dynamique est entièrement chargé.Utiliser des Parseurs Spécialisés
Utiliser des Parseurs Spécialisés
Pour les sites web populaires (Amazon, LinkedIn, Google), utilisez nos parseurs pré-construits pour obtenir automatiquement des données structurées.
Filtrer les URLs Efficacement
Filtrer les URLs Efficacement
Lors de l’utilisation de
extract_urls ou crawl_website, utilisez des modèles globaux pour vous concentrer sur les pages pertinentes et éviter un traitement inutile.Gérer les Limites de Taux
Gérer les Limites de Taux
Implémentez un backoff exponentiel pour les erreurs de limite de taux. L’API gère automatiquement la plupart des limitations de taux en interne.
Support
- Paquet PyPI : langchain-olostep
- Documentation : docs.olostep.com
- Problèmes : GitHub Issues
- Email : info@olostep.com
Ressources Connexes
Scrapes API
En savoir plus sur l’endpoint Scrapes
Batches API
En savoir plus sur l’endpoint Batches
Answers API
En savoir plus sur l’endpoint Answers
Maps API
En savoir plus sur l’endpoint Maps
Crawls API
En savoir plus sur l’endpoint Crawls
SDK Python
Explorer le SDK Python
Site Web LangChain
Plateforme LangChain