Vue d’ensemble
Le point d’accès scrape d’Olostep permet d’extraire du contenu de n’importe quel site web. Le contenu en markdown est utile si vous souhaitez l’envoyer à un LLM sans tout le HTML. Dans ce guide, nous verrons comment extraire du markdown d’un site web commehttps://www.nea.com/team.
Prérequis
Avant de commencer, assurez-vous d’avoir les éléments suivants :- Une clé API Olostep valide. Vous pouvez en obtenir une en vous inscrivant sur Olostep.
- Python installé sur votre système
- Les bibliothèques
requestsetjson(celles-ci sont préinstallées avec Python, mais vous pouvez les installer en utilisantpip install requestssi nécessaire)
Extraction de Texte d’un Site Web
Le script Python suivant montre comment extraire du texte et du contenu markdown d’un site web en utilisant l’API d’Olostep.Exemple de Réponse
Une réponse réussie ressemblera à ceci :Explication
url_to_scrape: spécifie l’URL du site web à partir duquel extraire le contenu.formats: définit les formats de sortie (texte dans ce cas).Authorization: contient votre clé API pour authentifier la requête.- La réponse est formatée en JSON et imprimée pour plus de lisibilité.