Overzicht
Olostep’s scrape endpoint maakt het mogelijk om inhoud van elke website te extraheren. Inhoud in markdown is nuttig als je het aan een LLM wilt voeren zonder alle HTML. In deze gids zullen we zien hoe je markdown van een website zoalshttps://www.nea.com/team kunt extraheren.
Vereisten
Voordat je begint, zorg ervoor dat je het volgende hebt:- Een geldige Olostep API-sleutel. Je kunt er een krijgen door je aan te melden bij Olostep.
- Python geïnstalleerd op je systeem
- De
requestsenjsonbibliotheken (deze zijn vooraf geïnstalleerd met Python, maar je kunt ze installeren metpip install requestsindien nodig)
Tekst van een Website Extraheren
Het volgende Python-script demonstreert hoe je tekst en markdown-inhoud van een website kunt extraheren met behulp van Olostep’s API.Voorbeeld Antwoord
Een succesvol antwoord ziet er ongeveer zo uit:Uitleg
url_to_scrape: specificeert de website-URL waarvan de inhoud moet worden geëxtraheerd.formats: definieert de uitvoerformaten (tekst in dit geval).Authorization: bevat je API-sleutel om het verzoek te authentiseren.- De reactie is geformatteerd als JSON en wordt afgedrukt voor leesbaarheid.