Aperçu
L’endpoint scrape d’Olostep permet d’extraire le contenu de n’importe quel site web. Le contenu en markdown est utile si tu veux l’alimenter à un LLM sans tout le HTML. Dans ce guide, nous verrons comment extraire du markdown d’un site web commehttps://www.nea.com/team.
Prérequis
Avant de commencer, assure-toi d’avoir les éléments suivants :- Une clé API Olostep valide. Tu peux en obtenir une en t’inscrivant sur Olostep.
- Python installé sur ton système
- Les bibliothèques
requestsetjson(celles-ci sont préinstallées avec Python, mais tu peux les installer en utilisantpip install requestssi nécessaire)
Extraction de Texte d’un Site Web
Le script Python suivant démontre comment extraire du texte et du contenu markdown d’un site web en utilisant l’API d’Olostep.Exemple de Réponse
Une réponse réussie ressemblera à ceci :Explication
url_to_scrape: spécifie l’URL du site web dont extraire le contenu.formats: définit les formats de sortie (texte dans ce cas).Authorization: contient ta clé API pour authentifier la requête.- La réponse est formatée en JSON et imprimée pour plus de lisibilité.