/v1/scrapes d’Olostep, vous pouvez extraire en temps réel du Markdown, HTML, texte, captures d’écran ou JSON structuré, adaptés aux LLM, à partir de n’importe quelle URL.
- Produit du markdown propre, des données structurées, des captures d’écran ou du html
- Extraire du JSON via Parsers ou extraction LLM
- Gère le contenu dynamique : sites rendus par js, flux de connexion via actions, PDF
Scraper une URL
Utilisez l’endpoint/v1/scrapes pour scraper une seule URL et choisir les formats de sortie.
Installation
Utilisation
Vous pouvez utiliser l’endpoint pour scraper une seule URL et choisir les formats de sortie. Les paramètres obligatoires sonturl_to_scrape et formats.
Parmi les autres paramètres courants, on trouve wait_before_scraping (en millisecondes), remove_css_selectors (par défaut, aucun, ou un tableau de sélecteurs), et country.
Réponse
L’API renvoie un objetscrape en réponse.
Le scrape possède quelques propriétés comme id et result.
L’objet result a les champs suivants (selon le paramètre formats, certains peuvent être nuls) :
html_content: le contenu HTML de la page. Passezformats: ["html"]pour obtenir cela.markdown_content: le contenu MD de la page. Passezformats: ["markdown"]pour obtenir cela.text_content: le contenu texte de la page. Passezformats: ["text"]pour obtenir cela.json_content: le contenu JSON de la page. Passezformats: ["json"]pour obtenir cela et fournissez également un paramètreparseroullm_extract.screenshot_hosted_url: l’URL hébergée de la capture d’écran.html_hosted_url: l’URL hébergée du contenu HTMLmarkdown_hosted_url: l’URL hébergée du contenu Markdownjson_hosted_url: l’URL hébergée du contenu JSONtext_hosted_url: l’URL hébergée du contenu textelinks_on_page: les liens sur la pagepage_metadata: les métadonnées de la page
Formats de Scrape
Choisissez un ou plusieurs formats de sortie viaformats :
markdown: markdown adapté aux LLMhtml: HTML nettoyétext: texte brutjson: sortie structurée (via parser ou llm_extract)raw_pdf: octets PDF bruts extraits vers une URL hébergéescreenshot: défini via actions pour capturer une capture d’écran et retourner une URL hébergée
result en tant que champs *_content et également une *_hosted_url.
Extraire des données structurées
Vous pouvez extraire du JSON structuré de deux manières : en utilisant des Parsers ou l’extraction LLM.Utiliser un Parser (recommandé pour l’échelle)
Définissezformats: ["json"] et fournissez un id de parser.
Utiliser l’extraction LLM (schéma et/ou prompt)
Fournissezllm_extract avec un schéma JSON (schema) et/ou une instruction en langage naturel (prompt). Vous pouvez passer les deux paramètres, mais si les deux sont fournis, schema prend la priorité.
Sinon, si vous passez juste un prompt, le LLM extraira les données en fonction du prompt et décidera de la structure des données par lui-même.
result.json_content renvoie un JSON sous forme de chaîne de caractères. Analysez-le dans votre code si vous avez besoin d’un objet.
Interagir avec la page avec des Actions
Effectuez des actions avant de scraper pour interagir avec des sites dynamiques. Actions prises en charge :waitavecmillisecondsclickavecselectorfill_inputavecselectoretvaluescrollavecdirectionetamount
wait avant/après d’autres actions pour permettre le chargement de la page.
Exemple
markdown_content).
Cas d’utilisation
Voici quelques applications pratiques de clients utilisant l’endpoint/scrapes.
Analyse de contenu & Recherche
- Analyse concurrentielle : Extraire des détails de produits, prix et caractéristiques des sites concurrents
- Étude de marché : Analyser les pages d’atterrissage, descriptions de produits et témoignages clients
- Recherche académique : Rassembler des données spécifiques à partir de publications scientifiques ou de portails de recherche
- Documentation légale : Extraire des études de cas, réglementations ou précédents juridiques à partir de sites officiels
E-commerce & Vente au détail
- Stratégies de tarification dynamique : Obtenez les prix des produits en temps réel des magasins concurrents
- Gestion de l’information produit : Extraire des spécifications détaillées et descriptions
- Suivi des stocks/inventaires : Vérifiez la disponibilité des produits chez d’autres détaillants
- Analyse des avis : Recueillir les retours et sentiments des consommateurs pour des produits spécifiques
Marketing & Création de contenu
- Curation de contenu : Extraire des articles et billets de blog pertinents pour des newsletters
- Analyse SEO : Examiner l’utilisation des mots-clés, descriptions méta et structure de page des concurrents
- Génération de leads : Extraire des informations de contact à partir d’annuaires d’entreprises ou de pages d’entreprise
- Recherche d’influenceurs : Recueillir des métriques d’engagement et styles de contenu à partir de profils d’influenceurs
- Génération de médias sociaux personnalisée : Créer du marketing sur les réseaux sociaux alimenté par l’IA en analysant les sites web des clients
Applications de données
- Collecte de données d’entraînement IA : Recueillir des exemples spécifiques pour les modèles d’apprentissage automatique
- Construction de base de connaissances personnalisée : Extraire de la documentation ou des instructions à partir de sites logiciels
- Archives de données historiques : Préserver le contenu des sites web à des moments spécifiques
- Extraction de données structurées : Transformer le contenu web en ensembles de données formatés pour analyse
Surveillance & Alertes
- Surveillance de la conformité réglementaire : Suivre les changements sur les sites web légaux ou réglementaires
- Gestion de crise : Surveiller les sites d’actualités pour des mentions d’événements ou organisations spécifiques
- Suivi d’événements : Extraire des détails sur les événements à venir à partir de sites de lieux ou d’organisateurs
- Surveillance de l’état des services : Vérifiez les pages d’état des services pour des plateformes ou outils spécifiques
Publication & Médias
- Agrégation d’actualités : Extraire des nouvelles de dernière minute à partir de sources officielles
- Surveillance des médias : Suivre des sujets spécifiques à travers les sites d’actualités
- Vérification de contenu : Extraire des informations pour vérifier des affirmations ou déclarations
- Extraction multimédia : Recueillir des vidéos, images ou audio intégrés pour des bibliothèques multimédias
Applications financières
- Recherche d’investissement : Extraire des états financiers ou rapports annuels à partir de sites d’entreprises
- Indicateurs économiques : Recueillir des données économiques à partir de sites gouvernementaux ou d’institutions financières
- Données sur les cryptomonnaies : Extraire des informations de prix en temps réel et de capitalisation boursière
- Analyse des actualités financières : Surveiller les sites d’actualités financières pour des signaux de marché spécifiques
Applications techniques
- Extraction de documentation API : Recueillir de la documentation technique pour référence
- Tests d’intégration : Extraire des éléments de site web pour vérifier les intégrations tierces
- Tests d’accessibilité : Analyser la structure des sites web pour la conformité aux normes d’accessibilité
- Création d’archives web : Capturer le contenu complet des sites web pour la préservation historique
Scénarios d’intégration
- Systèmes CRM : Améliorer les profils clients avec des données de sites d’entreprises ou Linkedin
- Systèmes de gestion de contenu : Importer du contenu externe pertinent
- Outils de business intelligence : Compléter les données internes avec des informations de marché externes
- Logiciels de gestion de projet : Extraire des spécifications ou exigences à partir de sites de clients
- Tableaux de bord personnalisés : Afficher les données extraites aux côtés des métriques internes