/v1/scrapes endpoint kun je LLM-vriendelijke Markdown, HTML, tekst, screenshots of gestructureerde JSON uit elke URL in real-time extraheren.
- Levert schone markdown, gestructureerde data, screenshots of html
- Extraheer JSON via Parsers of LLM-extractie
- Behandelt dynamische inhoud: js-gerenderde sites, inlogstromen via acties, PDF’s
Een URL scrapen
Gebruik de/v1/scrapes endpoint om een enkele URL te scrapen en kies uitvoerformaten.
Installatie
Gebruik
Je kunt de endpoint gebruiken om een enkele URL te scrapen en uitvoerformaten te kiezen. De verplichte parameters zijnurl_to_scrape en formats.
Enkele andere veelvoorkomende parameters zijn wait_before_scraping (in milliseconden), remove_css_selectors (standaard, geen of een array van selectors) en country.
Antwoord
De API retourneert eenscrape object als antwoord.
De scrape heeft enkele eigenschappen zoals id en result.
Het result object heeft de volgende velden (afhankelijk van de formats parameter kunnen sommige null zijn):
html_content: de HTML-inhoud van de pagina. Geefformats: ["html"]door om dit te krijgen.markdown_content: de MD-inhoud van de pagina. Geefformats: ["markdown"]door om dit te krijgen.text_content: de tekstinhoud van de pagina. Geefformats: ["text"]door om dit te krijgen.json_content: de JSON-inhoud van de pagina. Geefformats: ["json"]door om dit te krijgen en geef ook eenparserofllm_extractparameter.screenshot_hosted_url: de gehoste URL van de screenshot.html_hosted_url: de gehoste URL van de HTML-inhoudmarkdown_hosted_url: de gehoste URL van de Markdown-inhoudjson_hosted_url: de gehoste URL van de JSON-inhoudtext_hosted_url: de gehoste URL van de tekstinhoudlinks_on_page: de links op de paginapage_metadata: de metadata van de pagina
Scrape Formaten
Kies een of meer uitvoerformaten viaformats:
markdown: LLM-vriendelijke markdownhtml: schoongemaakte HTMLtext: platte tekstjson: gestructureerde uitvoer (via parser of llm_extract)raw_pdf: ruwe PDF-bytes geëxtraheerd naar gehoste URLscreenshot: ingesteld via acties om een screenshot te maken en een gehoste URL te retourneren
result geretourneerd als *_content velden en een *_hosted_url ook.
Gestructureerde data extraheren
Je kunt gestructureerde JSON op twee manieren extraheren: met behulp van Parsers of LLM-extractie.Een Parser gebruiken (aanbevolen voor schaal)
Definieerformats: ["json"] en geef een parser id.
LLM-extractie gebruiken (schema en/of prompt)
Geefllm_extract met een JSON Schema (schema) en/of een natuurlijke taal instructie (prompt). Je kunt beide parameters doorgeven, maar als beide worden verstrekt, heeft schema voorrang.
Als je alleen een prompt doorgeeft, zal de LLM de data extraheren op basis van de prompt en zelf de datastructuur bepalen.
result.json_content retourneert een geserialiseerde JSON. Parse het in je code als je een object nodig hebt.
Interactie met de pagina met Acties
Voer acties uit voordat je gaat scrapen om te communiceren met dynamische sites. Ondersteunde acties:waitmetmillisecondsclickmetselectorfill_inputmetselectorenvaluescrollmetdirectionenamount
wait te gebruiken voor/na andere acties om de pagina te laten laden.
Voorbeeld
markdown_content).
Gebruikscases
Hieronder staan enkele praktische toepassingen van klanten die de/scrapes endpoint gebruiken.
Inhoudsanalyse & Onderzoek
- Concurrentieanalyse: Haal productdetails, prijzen en functies van concurrentenwebsites
- Marktonderzoek: Analyseer landingspagina’s, productbeschrijvingen en klantgetuigenissen
- Academisch Onderzoek: Verzamel specifieke gegevens van wetenschappelijke publicaties of onderzoeksportalen
- Juridische Documentatie: Haal casestudies, regelgeving of juridische precedenten van officiële websites
E-commerce & Detailhandel
- Dynamische Prijsstrategieën: Verkrijg real-time productprijzen van concurrerende winkels
- Productinformatiebeheer: Haal gedetailleerde specificaties en beschrijvingen op
- Voorraad/Inventaris Monitoring: Controleer productbeschikbaarheid bij andere retailers
- Review Analyse: Verzamel consumentenfeedback en sentiment voor specifieke producten
Marketing & Contentcreatie
- Contentcuratie: Haal relevante artikelen en blogposts op voor nieuwsbrieven
- SEO Analyse: Onderzoek het gebruik van zoekwoorden, metabeschrijvingen en paginavormgeving van concurrenten
- Leadgeneratie: Haal contactinformatie van bedrijvengidsen of bedrijfspagina’s
- Influencer Onderzoek: Verzamel betrokkenheidsstatistieken en contentstijlen van influencerprofielen
- Gepersonaliseerde Social Media generatie: Creëer AI-aangedreven social media marketing door klantwebsites te analyseren
Data Applicaties
- AI Trainingsdata Verzameling: Verzamel specifieke voorbeelden voor machine learning modellen
- Aangepaste Kennisbank Bouwen: Haal documentatie of instructies van softwarewebsites
- Historische Data Archieven: Bewaar website-inhoud op specifieke momenten in de tijd
- Gestructureerde Data Extractie: Transformeer webinhoud in geformatteerde datasets voor analyse
Monitoring & Alerts
- Regelgevingsnaleving Monitoring: Volg wijzigingen op juridische of regelgevende websites
- Crisisbeheer: Monitor nieuwssites voor vermeldingen van specifieke gebeurtenissen of organisaties
- Evenement Volgen: Haal details over aankomende evenementen van locatie- of organisatorenwebsites
- Service Status Monitoring: Controleer servicestatuspagina’s voor specifieke platforms of tools
Publiceren & Media
- Nieuws Aggregatie: Haal breaking news van officiële bronnen
- Media Monitoring: Volg specifieke onderwerpen op nieuwssites
- Inhoudsverificatie: Haal informatie op om claims of uitspraken te controleren
- Multimedia Extractie: Verzamel ingesloten video’s, afbeeldingen of audio voor mediatheken
Financiële Applicaties
- Investeringsonderzoek: Haal financiële overzichten of jaarverslagen van bedrijfswebsites
- Economische Indicatoren: Verzamel economische data van overheids- of financiële instellingenwebsites
- Cryptocurrency Data: Haal real-time prijs- en marktkapitalisatie-informatie op
- Financiële Nieuws Analyse: Monitor financiële nieuwssites voor specifieke marktsignalen
Technische Applicaties
- API Documentatie Extractie: Verzamel technische documentatie voor referentie
- Integratietesten: Haal website-elementen op om derde partij integraties te verifiëren
- Toegankelijkheidstesten: Analyseer de website-structuur voor naleving van toegankelijkheidsnormen
- Webarchief Creatie: Leg volledige website-inhoud vast voor historische bewaring
Integratiescenario’s
- CRM-systemen: Verrijk klantprofielen met data van bedrijfswebsites of Linkedin
- Content Management Systemen: Importeer relevante externe inhoud
- Business Intelligence Tools: Vul interne data aan met externe marktinformatie
- Projectmanagement Software: Haal specificaties of vereisten van klantwebsites
- Aangepaste Dashboards: Toon geëxtraheerde data naast interne statistieken