/v1/crawls endpoint kun je een website crawlen en de inhoud van alle pagina’s ophalen.
- Crawlen van een website en de inhoud van alle subpagina’s ophalen (of de diepte van de crawl beperken)
- Gebruik speciale patronen om specifieke pagina’s te crawlen (bijv.
/blog/**) - Geef een
webhook_urldoor om een melding te krijgen wanneer de crawl is voltooid - Zoekopdracht om alleen specifieke pagina’s te vinden en te sorteren op relevantie
Installatie
Start een crawl
Geef de start-URL, include/exclude URL-globs enmax_pages. Optioneel: max_depth, include_external, include_subdomain, search_query, top_n, webhook_url, timeout.
crawl object als antwoord. Het crawl object heeft enkele eigenschappen zoals id en status, die je kunt gebruiken om de crawl te volgen.
Controleer de crawlstatus
Poll de crawl om de voortgang te volgen totdatstatus completed is.
webhook_url doorgeven bij het starten van de crawl om een melding te krijgen wanneer de crawl is voltooid.
Lijst pagina’s (pagineren/streamen met cursor)
Haal pagina’s op en itereren metcursor en limit. Werkt terwijl de crawl in_progress of completed is.
Zoekopdracht (beperk tot top N relevant)
Gebruiksearch_query bij de start, en filter optioneel de lijst met search_query. Beperk per-pagina verkenning met top_n.
Inhoud ophalen
Gebruik deretrieve_id van elke pagina met /v1/retrieve om html_content en/of markdown_content op te halen.
Notities
- Paginering is cursor-gebaseerd; herhaal verzoeken totdat
cursorafwezig is. - Inhoudsvelden op
/v1/crawls/{crawl_id}/pageszijn verouderd; gebruik liever/v1/retrieve. - Webhooks: stel
webhook_urlin om een POST te ontvangen wanneer de crawl voltooid is.