Documentation Index
Fetch the complete documentation index at: https://docs.olostep.com/llms.txt
Use this file to discover all available pages before exploring further.
Overzicht
Olostep’s scrape endpoint maakt het mogelijk om inhoud van elke website te extraheren. Inhoud in markdown is nuttig als je het aan een LLM wilt voeren zonder alle HTML.
In deze gids laten we zien hoe je markdown van een website zoals https://www.nea.com/team kunt extraheren.
Vereisten
Voordat je begint, zorg ervoor dat je het volgende hebt:
- Een geldige Olostep API-sleutel. Je kunt er een krijgen door je aan te melden bij Olostep.
- Python geïnstalleerd op je systeem
- De
requests en json bibliotheken (deze zijn standaard geïnstalleerd met Python, maar je kunt ze installeren met pip install requests indien nodig)
Het volgende Python-script laat zien hoe je tekst en markdown-inhoud van een website kunt extraheren met behulp van de Olostep API.
import requests
import json
url = "https://api.olostep.com/v1/scrapes"
payload = {
"url_to_scrape": "https://www.nea.com/team",
"country": "US",
"formats": ["markdown"],
"wait_before_scraping": 0,
"remove_css_selectors": "default",
}
headers = {
"Authorization": "Bearer <YOUR_API_KEY>",
"Content-Type": "application/json"
}
response = requests.request("POST", url, json=payload, headers=headers)
print(json.dumps(response.json(), indent=4))
Voorbeeldreactie
Een succesvolle reactie ziet er ongeveer zo uit:
{
"id": "scrape_63x2e5sf5r",
"object": "scrape",
"created": 1740341743,
"metadata": {},
"retrieve_id": "63x2e5sf5r",
"url_to_scrape": "https://www.nea.com/team",
"result": {
"html_content": null,
"markdown_content": "NEA ….",
"text_content": null,
"json_content": null,
"llm_extract": null,
"screenshot_hosted_url": null,
"html_hosted_url": null,
"markdown_hosted_url": "https://olostep-storage.s3.us-east-1.amazonaws.com/markDown_63x2e5sf5r.txt",
"json_hosted_url": null,
"text_hosted_url": null,
"links_on_page": [],
"page_metadata": {
"status_code": 200,
"title": ""
}
}
}
Uitleg
url_to_scrape: specificeert de website-URL waarvan de inhoud moet worden geëxtraheerd.
formats: definieert de uitvoerformaten (in dit geval tekst).
Authorization: bevat je API-sleutel om de aanvraag te authentiseren.
- De reactie is geformatteerd als JSON en wordt afgedrukt voor leesbaarheid.
Conclusie
Met Olostep kun je eenvoudig markdown-inhoud van elke website extraheren. Dit is nuttig als je inhoud van een website wilt halen en aan een LLM wilt voeren voor gegevensextractie en analyse. Als je inhoud op grote schaal van dezelfde website wilt extraheren (bijv. monitoring van gegevens, prijsbewaking, etc…) raden we aan om een custom parser te gebruiken om de inhoud in JSON-formaat te krijgen.