Functies
De integratie biedt toegang tot alle 5 Olostep API-mogelijkheden:Scrapes
Haal inhoud op van elke enkele URL in meerdere formaten (Markdown, HTML, JSON, tekst)
Batches
Verwerk tot 10.000 URL’s parallel. Batchtaken worden voltooid in 5-8 minuten
Answers
AI-gestuurde webzoekopdrachten met natuurlijke taalvragen en gestructureerde output
Maps
Haal alle URL’s van een website op voor analyse van de sitestructuur
Crawls
Ontdek en scrape zelfstandig volledige websites door links te volgen
Installatie
Setup
Stel je Olostep API-sleutel in als een omgevingsvariabele:Beschikbare Tools
scrape_website
Haal inhoud op van een enkele URL. Ondersteunt meerdere formaten en JavaScript-rendering.Website-URL om te scrapen (moet http:// of https:// bevatten)
Outputformaat:
markdown, html, json, of textLandcode voor locatie-specifieke inhoud (bijv. “US”, “GB”, “CA”)
Wachttijd in milliseconden voor JavaScript-rendering (0-10000)
Optionele parser-ID voor gespecialiseerde extractie (bijv. “@olostep/amazon-product”)
scrape_batch
Verwerk meerdere URL’s parallel (tot 10.000 tegelijk).Lijst van URL’s om te scrapen
Outputformaat voor alle URL’s:
markdown, html, json, of textLandcode voor locatie-specifieke inhoud
Wachttijd in milliseconden voor JavaScript-rendering
Optionele parser-ID voor gespecialiseerde extractie
answer_question
Doorzoek het web en krijg AI-gestuurde antwoorden met bronnen. Perfect voor data verrijking en onderzoek.Vraag of taak om naar te zoeken
Optioneel JSON-schema dict/string dat het gewenste outputformaat beschrijft
extract_urls
Haal alle URL’s van een website op voor analyse van de sitestructuur.Website-URL om URL’s van op te halen
Optionele zoekopdracht om URL’s te filteren
Beperk het aantal geretourneerde URL’s
Glob-patronen om op te nemen (bijv. [“/blog/**”])
Glob-patronen om uit te sluiten (bijv. [“/admin/**”])
crawl_website
Ontdek en scrape zelfstandig volledige websites door links te volgen.Start-URL voor de crawl
Maximum aantal pagina’s om te crawlen
Glob-patronen om op te nemen (bijv. [”/**”] voor alles)
Glob-patronen om uit te sluiten (bijv. [“/admin/**”])
Maximale diepte om te crawlen vanaf start_url
Inclusief externe URL’s
LangChain Agent Integratie
Bouw intelligente agenten die het web kunnen doorzoeken en scrapen:LangGraph Integratie
Bouw complexe multi-step workflows met LangGraph:Geavanceerde Gebruiksscenario’s
Data Verrijking
Verrijk spreadsheetgegevens met webinformatie:E-commerce Product Scraping
Scrape productgegevens met gespecialiseerde parsers:SEO Audit
Analyseer volledige websites voor SEO:Documentatie Scraping
Crawl en haal documentatie op:Gespecialiseerde Parsers
Olostep biedt vooraf gebouwde parsers voor populaire websites:@olostep/google-search- Google zoekresultaten
parser parameter:
Foutafhandeling
Beste Praktijken
Gebruik Batchverwerking voor Meerdere URL's
Gebruik Batchverwerking voor Meerdere URL's
Wanneer je meer dan 3-5 URL’s scrapt, gebruik
scrape_batch in plaats van meerdere scrape_website oproepen. Batchverwerking is veel sneller en kosteneffectiever.Stel Geschikte Time-outs in
Stel Geschikte Time-outs in
Voor JavaScript-rijke sites, gebruik de
wait_before_scraping parameter (2000-5000ms is typisch). Dit zorgt ervoor dat dynamische inhoud volledig is geladen.Gebruik Gespecialiseerde Parsers
Gebruik Gespecialiseerde Parsers
Voor populaire websites (Amazon, LinkedIn, Google), gebruik onze vooraf gebouwde parsers om automatisch gestructureerde data te krijgen.
Filter URL's Efficiënt
Filter URL's Efficiënt
Wanneer je
extract_urls of crawl_website gebruikt, gebruik glob-patronen om je te concentreren op relevante pagina’s en onnodige verwerking te vermijden.Behandel Rate Limits
Behandel Rate Limits
Implementeer exponentiële backoff voor rate limit fouten. De API behandelt de meeste rate limiting intern automatisch.
Ondersteuning
- PyPI Pakket: langchain-olostep
- Documentatie: docs.olostep.com
- Problemen: GitHub Issues
- E-mail: info@olostep.com
Gerelateerde Bronnen
Scrapes API
Leer over de Scrapes endpoint
Batches API
Leer over de Batches endpoint
Answers API
Leer over de Answers endpoint
Maps API
Leer over de Maps endpoint
Crawls API
Leer over de Crawls endpoint
Python SDK
Verken de Python SDK
LangChain Website
LangChain platform