Passer au contenu principal

Vue d’ensemble

Le point d’accès scrape d’Olostep permet d’extraire du contenu de n’importe quel site web. Le contenu en markdown est utile si vous souhaitez l’envoyer à un LLM sans tout le HTML. Dans ce guide, nous verrons comment extraire du markdown d’un site web comme https://www.nea.com/team.

Prérequis

Avant de commencer, assurez-vous d’avoir les éléments suivants :
  • Une clé API Olostep valide. Vous pouvez en obtenir une en vous inscrivant sur Olostep.
  • Python installé sur votre système
  • Les bibliothèques requests et json (celles-ci sont préinstallées avec Python, mais vous pouvez les installer en utilisant pip install requests si nécessaire)

Extraction de Texte d’un Site Web

Le script Python suivant montre comment extraire du texte et du contenu markdown d’un site web en utilisant l’API d’Olostep.
import requests
import json

url = "https://api.olostep.com/v1/scrapes"

payload = {
    "url_to_scrape": "https://www.nea.com/team",
    "country": "US",
    "formats": ["markdown"],
    "wait_before_scraping": 0,
    "remove_css_selectors": "default",
}

headers = {
    "Authorization": "Bearer <YOUR_API_KEY>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(json.dumps(response.json(), indent=4))

Exemple de Réponse

Une réponse réussie ressemblera à ceci :
{
    "id": "scrape_63x2e5sf5r",
    "object": "scrape",
    "created": 1740341743,
    "metadata": {},
    "retrieve_id": "63x2e5sf5r",
    "url_to_scrape": "https://www.nea.com/team",
    "result": {
        "html_content": null,
        "markdown_content": "NEA ….",
        "text_content": null,
        "json_content": null,
        "llm_extract": null,
        "screenshot_hosted_url": null,
        "html_hosted_url": null,
        "markdown_hosted_url": "https://olostep-storage.s3.us-east-1.amazonaws.com/markDown_63x2e5sf5r.txt",
        "json_hosted_url": null,
        "text_hosted_url": null,
        "links_on_page": [],
        "page_metadata": {
            "status_code": 200,
            "title": ""
        }
    }
}

Explication

  • url_to_scrape: spécifie l’URL du site web à partir duquel extraire le contenu.
  • formats: définit les formats de sortie (texte dans ce cas).
  • Authorization: contient votre clé API pour authentifier la requête.
  • La réponse est formatée en JSON et imprimée pour plus de lisibilité.

Conclusion

Avec Olostep, vous pouvez facilement extraire du contenu markdown de n’importe quel site web. Cela est utile si vous souhaitez obtenir du contenu d’un site web et l’envoyer à un LLM pour l’extraction et l’analyse de données. Si vous souhaitez extraire du contenu à grande échelle du même site web de manière répétée (par exemple, pour la surveillance des données, le suivi des prix, etc.), nous recommandons d’utiliser un analyseur personnalisé pour obtenir le contenu au format JSON.