Via de OlostepDocumentation Index
Fetch the complete documentation index at: https://docs.olostep.com/llms.txt
Use this file to discover all available pages before exploring further.
/v1/scrapes endpoint kun je LLM-vriendelijke Markdown, HTML, tekst, screenshots of gestructureerde JSON in real-time van elke URL extraheren.
- Levert schone markdown, gestructureerde data, screenshots of html op
- Extraheer JSON via Parsers of LLM-extractie
- Behandelt dynamische inhoud: door js-gerenderde sites, inlogstromen via acties, PDF’s
Een URL Scrapen
Gebruik de/v1/scrapes endpoint om een enkele URL te scrapen en kies uitvoerformaten.
Installatie
Gebruik
Je kunt de endpoint gebruiken om een enkele URL te scrapen en uitvoerformaten te kiezen. De verplichte parameters zijnurl_to_scrape en formats.
Enkele andere veelvoorkomende parameters zijn wait_before_scraping (in milliseconden), remove_css_selectors (standaard, geen, of een array van selectors), en country.
Antwoord
De API retourneert eenscrape object als antwoord.
De scrape heeft enkele eigenschappen zoals id en result.
Het result object heeft de volgende velden (afhankelijk van de formats parameter kunnen sommige null zijn):
html_content: de HTML-inhoud van de pagina. Geefformats: ["html"]door om dit te krijgen.markdown_content: de MD-inhoud van de pagina. Geefformats: ["markdown"]door om dit te krijgen.text_content: de tekstinhoud van de pagina. Geefformats: ["text"]door om dit te krijgen.json_content: de JSON-inhoud van de pagina. Geefformats: ["json"]door om dit te krijgen en geef ook eenparserofllm_extractparameter op.screenshot_hosted_url: de gehoste URL van de screenshot.html_hosted_url: de gehoste URL van de HTML-inhoudmarkdown_hosted_url: de gehoste URL van de Markdown-inhoudjson_hosted_url: de gehoste URL van de JSON-inhoudtext_hosted_url: de gehoste URL van de tekstinhoudlinks_on_page: de links op de paginapage_metadata: de metadata van de pagina
Scrape Formaten
Kies een of meer uitvoerformaten viaformats:
markdown: LLM-vriendelijke markdownhtml: schoongemaakte HTMLtext: platte tekstjson: gestructureerde uitvoer (via parser of llm_extract)raw_pdf: ruwe PDF-bytes geëxtraheerd naar gehoste URLscreenshot: ingesteld via acties om een screenshot te maken en een gehoste URL te retourneren
result geretourneerd als *_content velden en een *_hosted_url ook.
Gestructureerde data extraheren
Je kunt gestructureerde JSON op twee manieren extraheren: met behulp van Parsers of LLM-extractie.Een Parser gebruiken (aanbevolen voor schaal)
Definieerformats: ["json"] en geef een parser id.
LLM-extractie gebruiken (schema en/of prompt)
Geefllm_extract met een JSON Schema (schema) en/of een natuurlijke taal instructie (prompt). Je kunt beide parameters doorgeven, maar als beide zijn opgegeven, heeft schema voorrang.
Als je in plaats daarvan alleen een prompt doorgeeft, zal de LLM de data extraheren op basis van de prompt en zelf de datastructuur bepalen.
result.json_content retourneert een geserialiseerde JSON. Parseer het in je code als je een object nodig hebt.
Interactie met de pagina met Acties
Voer acties uit voordat je gaat scrapen om te interageren met dynamische sites. Ondersteunde acties:waitmetmillisecondsclickmetselectorfill_inputmetselectorenvaluescrollmetdirectionenamount
wait te gebruiken voor/na andere acties om de pagina te laten laden.
Voorbeeld
markdown_content).
Gebruiksscenario’s
Hieronder staan enkele praktische toepassingen van klanten die de/scrapes endpoint gebruiken.
Inhoudsanalyse & Onderzoek
- Concurrentieanalyse: Productdetails, prijzen en functies van concurrentenwebsites extraheren
- Marktonderzoek: Landingspagina’s, productbeschrijvingen en klantgetuigenissen analyseren
- Academisch Onderzoek: Specifieke gegevens verzamelen van wetenschappelijke publicaties of onderzoeksportalen
- Juridische Documentatie: Casestudy’s, regelgeving of juridische precedenten van officiële websites extraheren
E-commerce & Retail
- Dynamische Prijsstrategieën: Realtime productprijzen van concurrerende winkels verkrijgen
- Productinformatiebeheer: Gedetailleerde specificaties en beschrijvingen extraheren
- Voorraad/Inventaris Monitoring: Productbeschikbaarheid bij andere retailers controleren
- Review Analyse: Consumentenfeedback en sentiment voor specifieke producten verzamelen
Marketing & Contentcreatie
- Contentcuratie: Relevante artikelen en blogposts voor nieuwsbrieven extraheren
- SEO Analyse: Het gebruik van zoekwoorden, metabeschrijvingen en paginavormgeving van concurrenten onderzoeken
- Leadgeneratie: Contactinformatie van bedrijvengidsen of bedrijfspagina’s extraheren
- Influencer Onderzoek: Betrokkenheidsstatistieken en contentstijlen van influencerprofielen verzamelen
- Gepersonaliseerde Social Media generatie: AI-gestuurde social media marketing creëren door klantwebsites te analyseren
Data Toepassingen
- AI Trainingsdata Verzameling: Specifieke voorbeelden verzamelen voor machine learning modellen
- Aangepaste Kennisbank Bouwen: Documentatie of instructies van softwarewebsites extraheren
- Historische Data Archieven: Website-inhoud op specifieke tijdstippen bewaren
- Gestructureerde Data Extractie: Webinhoud omzetten in geformatteerde datasets voor analyse
Monitoring & Alerts
- Regelgevingsnaleving Monitoring: Wijzigingen op juridische of regelgevende websites volgen
- Crisisbeheer: Nieuwswebsites monitoren voor vermeldingen van specifieke gebeurtenissen of organisaties
- Evenement Volgen: Details over aankomende evenementen van locatie- of organisatorenwebsites extraheren
- Service Status Monitoring: Servicestatuspagina’s controleren voor specifieke platforms of tools
Publicatie & Media
- Nieuwsaggregatie: Breaking news van officiële bronnen extraheren
- Mediamonitoring: Specifieke onderwerpen op nieuwswebsites volgen
- Contentverificatie: Informatie extraheren om claims of uitspraken te controleren
- Multimedia Extractie: Ingebedde video’s, afbeeldingen of audio voor mediatheken verzamelen
Financiële Toepassingen
- Beleggingsonderzoek: Financiële overzichten of jaarverslagen van bedrijfswebsites extraheren
- Economische Indicatoren: Economische data van overheids- of financiële instellingenwebsites verzamelen
- Cryptocurrency Data: Realtime prijs- en marktkapitalisatie-informatie extraheren
- Financieel Nieuws Analyse: Financiële nieuwssites monitoren voor specifieke marktsignalen
Technische Toepassingen
- API Documentatie Extractie: Technische documentatie voor referentie verzamelen
- Integratietesten: Website-elementen extraheren om derde partij integraties te verifiëren
- Toegankelijkheidstesten: Website-structuur analyseren voor naleving van toegankelijkheidsnormen
- Webarchief Creatie: Volledige website-inhoud vastleggen voor historische bewaring
Integratie Scenario’s
- CRM Systemen: Klantprofielen verrijken met data van bedrijfswebsites of Linkedin
- Content Management Systemen: Relevante externe content importeren
- Business Intelligence Tools: Interne data aanvullen met externe marktinformatie
- Project Management Software: Specificaties of vereisten van klantwebsites extraheren
- Aangepaste Dashboards: Geëxtraheerde data naast interne statistieken weergeven
Foutafhandeling
Alle fouten volgen een gedeelde envelopvorm. Controleererror.type en error.code om programmatisch te vertakken:
| HTTP | error.type | error.code | Betekenis |
|---|---|---|---|
| 400 | invalid_request_error | dns_resolution_failed | Het domein bestaat niet of de URL bevat een typfout. |
| 400 | invalid_request_error | invalid_url | De URL is verkeerd gevormd. |
| 502 | invalid_request_error | tls_error | De website heeft een ongeldig of incompatibel TLS/SSL-certificaat. error.detail bevat de laag-niveau SSL-code. |
| 504 | request_timeout | scrape_poll_timeout | De scrape is niet binnen het ~55-seconden wachttijd budget voltooid. |
DNS-fout (400)
Het domein lost niet op. Controleer de URL op typfouten.TLS/SSL-fout (502)
De doelwebsite heeft een gebroken of incompatibele HTTPS-configuratie.error.detail biedt de specifieke SSL-foutcode voor diagnostiek; error.code is altijd tls_error.