Scrape

Grâce à l’endpoint /v1/scrapes d’Olostep, vous pouvez extraire en temps réel du Markdown, HTML, texte, captures d’écran ou JSON structuré compatible avec les LLM à partir de n’importe quelle URL.

Génère du markdown propre, des données structurées, des captures d’écran ou du html
Extrait du JSON via Parsers ou extraction LLM
Gère le contenu dynamique : sites rendus en js, flux de connexion via actions, PDFs

Pour les détails de l’API, consultez la Référence de l’API Scrape Endpoint.

Scraper une URL

Utilisez l’endpoint /v1/scrapes pour scraper une seule URL et choisir les formats de sortie.

Installation

pip install olostep

Utilisation

Vous pouvez utiliser l’endpoint pour scraper une seule URL et choisir les formats de sortie. Les paramètres obligatoires sont url_to_scrape et formats. Parmi les autres paramètres courants, on trouve wait_before_scraping (en millisecondes), remove_css_selectors (par défaut, aucun, ou un tableau de sélecteurs), et country.

from olostep import Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

result = client.scrapes.create(
    url_to_scrape="https://en.wikipedia.org/wiki/Alexander_the_Great",
    formats=["markdown", "html"],
)

print(result.markdown_content)
print(result.html_content)

Réponse

L’API renvoie un objet scrape en réponse. Le scrape possède quelques propriétés comme id et result. L’objet result contient les champs suivants (selon le paramètre formats, certains peuvent être nuls) :

html_content : le contenu HTML de la page. Passez formats: ["html"] pour obtenir ceci.
markdown_content : le contenu MD de la page. Passez formats: ["markdown"] pour obtenir ceci.
text_content : le contenu texte de la page. Passez formats: ["text"] pour obtenir ceci.
json_content : le contenu JSON de la page. Passez formats: ["json"] pour obtenir ceci et fournissez également un paramètre parser ou llm_extract.
screenshot_hosted_url : l’URL hébergée de la capture d’écran.
html_hosted_url : l’URL hébergée du contenu HTML
markdown_hosted_url : l’URL hébergée du contenu Markdown
json_hosted_url : l’URL hébergée du contenu JSON
text_hosted_url : l’URL hébergée du contenu texte
links_on_page : les liens sur la page
page_metadata : les métadonnées de la page

{
  "id": "scrape_6h89o8u1kt",
  "object": "scrape",
  "created": 1745673871,
  "metadata": {},
  "retrieve_id": "6h89o8u1kt",
  "url_to_scrape": "https://en.wikipedia.org/wiki/Alexander_the_Great",
  "result": {
    "html_content": "<html...",
    "markdown_content": "## Alexander the Great...",
    "text_content": null,
    "json_content": null,
    "screenshot_hosted_url": null,
    "html_hosted_url": "https://olostep-storage.s3.us-east-1.amazonaws.com/text_6h89o8u1kt.txt",
    "markdown_hosted_url": "https://olostep-storage.s3.us-east-1.amazonaws.com/markDown_6h89o8u1kt.txt",
    "json_hosted_url": null,
    "text_hosted_url": null,
    "links_on_page": [],
    "page_metadata": { "status_code": 200, "title": "" }
  }
}

Formats de Scrape

Choisissez un ou plusieurs formats de sortie via formats :

markdown : markdown compatible LLM
html : HTML nettoyé
text : texte brut
json : sortie structurée (via parser ou llm_extract)
raw_pdf : octets PDF bruts extraits vers une URL hébergée
screenshot : défini via des actions pour capturer une capture d’écran et retourner une URL hébergée

Les clés de sortie sont retournées à l’intérieur de result en tant que champs *_content et un *_hosted_url également.

Extraire des données structurées

Vous pouvez extraire du JSON structuré de deux manières : en utilisant des Parsers ou l’extraction LLM.

Utiliser un Parser (recommandé pour l’échelle)

Définissez formats: ["json"] et fournissez un id de parser.

from olostep import Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

result = client.scrapes.create(
    url_to_scrape="https://www.google.com/search?q=alexander+the+great&gl=us&hl=en",
    formats=["json"],
    parser="@olostep/google-search",
)

print(result.json_content)

Olostep dispose de quelques parsers pré-construits pour les sites populaires mais vous pouvez également créer vos propres parsers via le tableau de bord ou demander à notre équipe de le faire pour vous. Les parsers sont auto-réparateurs et se mettront à jour eux-mêmes à la dernière version du site web.

Utiliser l’extraction LLM (schéma et/ou prompt)

Fournissez llm_extract avec un schéma JSON (schema) et/ou une instruction en langage naturel (prompt). Vous pouvez passer les deux paramètres, mais si les deux sont fournis, schema prend la priorité. Sinon, si vous passez juste un prompt, le LLM extraira les données basées sur le prompt et décidera de la structure des données par lui-même.

from olostep import LLMExtract, Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

result = client.scrapes.create(
    url_to_scrape="https://www.berklee.edu/events/stefano-marchese-friends",
    formats=["markdown", "json"],
    llm_extract=LLMExtract(
        schema={
            "event": {
                "type": "object",
                "properties": {
                    "title": {"type": "string"},
                    "date": {"type": "string"},
                    "description": {"type": "string"},
                    "venue": {"type": "string"},
                    "address": {"type": "string"},
                    "start_time": {"type": "string"},
                },
            }
        }
    ),
)

print(result.json_content)

Note : result.json_content renvoie un JSON sous forme de chaîne de caractères. Analysez-le dans votre code si vous avez besoin d’un objet.

Interagir avec la page avec des Actions

Effectuez des actions avant de scraper pour interagir avec des sites dynamiques. Actions prises en charge :

wait avec milliseconds
click avec selector
fill_input avec selector et value
scroll avec direction et amount

Il est souvent utile d’utiliser wait avant/après d’autres actions pour permettre le chargement de la page.

Exemple

from olostep import FillInputAction, Olostep, WaitAction

client = Olostep(api_key="YOUR_REAL_KEY")

result = client.scrapes.create(
    url_to_scrape="https://example.com/login",
    formats=["markdown"],
    actions=[
        FillInputAction(selector="input[type=email]", value="john@example.com"),
        WaitAction(milliseconds=500),
        FillInputAction(selector="input[type=password]", value="secret"),
        {"type": "click", "selector": "button[type=\"submit\"]"},
        WaitAction(milliseconds=1500),
    ],
)

print(result.markdown_content)

La réponse inclura tous les formats demandés (par exemple, markdown_content).

Cas d’utilisation

Voici quelques applications pratiques de clients utilisant l’endpoint /scrapes.

Analyse de contenu & Recherche

Analyse concurrentielle : Extraire les détails des produits, les prix et les caractéristiques des sites web des concurrents
Étude de marché : Analyser les pages de destination, les descriptions de produits et les témoignages de clients
Recherche académique : Rassembler des données spécifiques à partir de publications scientifiques ou de portails de recherche
Documentation légale : Extraire des études de cas, des réglementations ou des précédents juridiques à partir de sites officiels

E-commerce & Vente au détail

Stratégies de tarification dynamique : Obtenir les prix des produits en temps réel dans les magasins concurrents
Gestion de l’information produit : Extraire des spécifications détaillées et des descriptions
Surveillance des stocks/inventaire : Vérifier la disponibilité des produits chez d’autres détaillants
Analyse des avis : Recueillir les retours des consommateurs et le sentiment pour des produits spécifiques

Marketing & Création de contenu

Curation de contenu : Extraire des articles et des billets de blog pertinents pour des newsletters
Analyse SEO : Examiner l’utilisation des mots-clés, les descriptions méta et la structure des pages des concurrents
Génération de leads : Extraire des informations de contact à partir d’annuaires d’entreprises ou de pages d’entreprises
Recherche d’influenceurs : Recueillir des métriques d’engagement et des styles de contenu à partir de profils d’influenceurs
Génération de médias sociaux personnalisés : Créer un marketing sur les réseaux sociaux alimenté par l’IA en analysant les sites web des clients

Applications de données

Collecte de données pour l’entraînement de l’IA : Rassembler des exemples spécifiques pour les modèles d’apprentissage automatique
Construction de bases de connaissances personnalisées : Extraire de la documentation ou des instructions à partir de sites logiciels
Archives de données historiques : Préserver le contenu des sites web à des moments spécifiques
Extraction de données structurées : Transformer le contenu web en ensembles de données formatés pour l’analyse

Surveillance & Alertes

Surveillance de la conformité réglementaire : Suivre les changements sur les sites web légaux ou réglementaires
Gestion de crise : Surveiller les sites d’actualités pour les mentions d’événements ou d’organisations spécifiques
Suivi d’événements : Extraire des détails sur les événements à venir à partir de sites de lieux ou d’organisateurs
Surveillance de l’état des services : Vérifier les pages d’état des services pour des plateformes ou outils spécifiques

Publication & Médias

Agrégation de nouvelles : Extraire les dernières nouvelles à partir de sources officielles
Surveillance des médias : Suivre des sujets spécifiques sur les sites d’actualités
Vérification de contenu : Extraire des informations pour vérifier des affirmations ou des déclarations
Extraction multimédia : Recueillir des vidéos, images ou audios intégrés pour des bibliothèques multimédias

Applications financières

Recherche d’investissement : Extraire des états financiers ou des rapports annuels à partir de sites d’entreprises
Indicateurs économiques : Recueillir des données économiques à partir de sites gouvernementaux ou d’institutions financières
Données sur les cryptomonnaies : Extraire des informations en temps réel sur les prix et la capitalisation boursière
Analyse des nouvelles financières : Surveiller les sites d’actualités financières pour des signaux de marché spécifiques

Applications techniques

Extraction de documentation API : Recueillir de la documentation technique pour référence
Tests d’intégration : Extraire des éléments de sites web pour vérifier les intégrations tierces
Tests d’accessibilité : Analyser la structure des sites web pour la conformité aux normes d’accessibilité
Création d’archives web : Capturer le contenu complet des sites web pour une préservation historique

Scénarios d’intégration

Systèmes CRM : Améliorer les profils clients avec des données provenant de sites d’entreprises ou de Linkedin
Systèmes de gestion de contenu : Importer du contenu externe pertinent
Outils d’intelligence d’affaires : Compléter les données internes avec des informations de marché externes
Logiciels de gestion de projet : Extraire des spécifications ou des exigences à partir de sites clients
Tableaux de bord personnalisés : Afficher les données extraites aux côtés des métriques internes

Gestion des erreurs

Toutes les erreurs suivent une forme d’enveloppe partagée. Vérifiez error.type et error.code pour bifurquer de manière programmatique :

{
  "id": "error_abc123",
  "object": "error",
  "created": 1745673871,
  "url": "https://example.com",
  "metadata": {},
  "error": {
    "type": "...",
    "code": "...",
    "message": "..."
  }
}

HTTP	`error.type`	`error.code`	Signification
400	`invalid_request_error`	`dns_resolution_failed`	Le domaine n’existe pas ou l’URL contient une faute de frappe.
400	`invalid_request_error`	`invalid_url`	L’URL est mal formée.
502	`invalid_request_error`	`tls_error`	Le site web a un certificat TLS/SSL invalide ou incompatible. `error.detail` contient le code SSL bas niveau.
504	`request_timeout`	`scrape_poll_timeout`	Le scrape n’a pas terminé dans le délai d’attente d’environ 55 secondes.

Échec DNS (400)

Le domaine ne se résout pas. Vérifiez l’URL pour des fautes de frappe.

{
  "error": {
    "type": "invalid_request_error",
    "code": "dns_resolution_failed",
    "message": "L'URL contient une faute de frappe, ou le domaine n'existe pas."
  }
}

Erreur TLS/SSL (502)

Le site web cible a une configuration HTTPS cassée ou incompatible. error.detail fournit le code d’erreur SSL spécifique pour le diagnostic ; error.code est toujours tls_error.

{
  "error": {
    "type": "invalid_request_error",
    "code": "tls_error",
    "detail": "err_ssl_tlsv1_alert_internal_error",
    "message": "Le site web a fermé ou rejeté la poignée de main TLS. Le serveur peut être mal configuré ou utiliser une version SSL/TLS non prise en charge."
  }
}

Délai d’attente de la requête (504)

Le scrape n’a pas été complété dans le délai d’attente. La page peut être lente, protégée contre les robots, ou temporairement indisponible. Cette réponse peut être réessayée en toute sécurité.

{
  "error": {
    "type": "request_timeout",
    "code": "scrape_poll_timeout",
    "message": "Délai d'attente dépassé lors de l'attente du résultat du scrape. La page peut être lente, bloquée pour nos fetchers, ou temporairement indisponible."
  }
}

Tarification

Un scrape coûte 1 crédit par défaut. Si vous passez également des parsers, les coûts varient par parser (1-5 crédits). Si vous utilisez LLM extract, cela coûte 20 crédits.

Commencer

Fonctionnalités

Intégrations

Scraper une URL

Installation

Utilisation

Réponse

Formats de Scrape

Extraire des données structurées

Utiliser un Parser (recommandé pour l’échelle)

Utiliser l’extraction LLM (schéma et/ou prompt)

Interagir avec la page avec des Actions

Exemple

Cas d’utilisation

Analyse de contenu & Recherche

E-commerce & Vente au détail

Marketing & Création de contenu

Applications de données

Surveillance & Alertes

Publication & Médias

Applications financières

Applications techniques

Scénarios d’intégration

Gestion des erreurs

Échec DNS (400)

Erreur TLS/SSL (502)

Délai d’attente de la requête (504)

Tarification

Commencer

Fonctionnalités

Intégrations

Documentation Index

​Scraper une URL

​Installation

​Utilisation

​Réponse

​Formats de Scrape

​Extraire des données structurées

​Utiliser un Parser (recommandé pour l’échelle)

​Utiliser l’extraction LLM (schéma et/ou prompt)

​Interagir avec la page avec des Actions

​Exemple

​Cas d’utilisation

​Analyse de contenu & Recherche

​E-commerce & Vente au détail

​Marketing & Création de contenu

​Applications de données

​Surveillance & Alertes

​Publication & Médias

​Applications financières

​Applications techniques

​Scénarios d’intégration

​Gestion des erreurs

​Échec DNS (400)

​Erreur TLS/SSL (502)

​Délai d’attente de la requête (504)

​Tarification

Scraper une URL

Installation

Utilisation

Réponse

Formats de Scrape

Extraire des données structurées

Utiliser un Parser (recommandé pour l’échelle)

Utiliser l’extraction LLM (schéma et/ou prompt)

Interagir avec la page avec des Actions

Exemple

Cas d’utilisation

Analyse de contenu & Recherche

E-commerce & Vente au détail

Marketing & Création de contenu

Applications de données

Surveillance & Alertes

Publication & Médias

Applications financières

Applications techniques

Scénarios d’intégration

Gestion des erreurs

Échec DNS (400)

Erreur TLS/SSL (502)

Délai d’attente de la requête (504)

Tarification