/v1/crawls endpoint kun je een website crawlen en de inhoud van alle pagina’s verkrijgen.
- Crawl een website en verkrijg de inhoud van alle subpagina’s (of beperk de diepte van de crawl)
- Gebruik speciale patronen om specifieke pagina’s te crawlen (bijv.
/blog/**) - Geef een
webhook_urldoor om een melding te krijgen wanneer de crawl is voltooid - Zoekopdracht om alleen specifieke pagina’s te vinden en te sorteren op relevantie
Installatie
Start een crawl
Geef de start-URL, include/exclude URL-globs enmax_pages op. Optioneel: max_depth, include_external, include_subdomain, search_query, top_n, webhook_url, timeout.
crawl object als antwoord. Het crawl object heeft enkele eigenschappen zoals id en status, die je kunt gebruiken om de crawl te volgen.
Controleer crawlstatus
Poll de crawl om de voortgang te volgen totdatstatus completed is.
webhook_url doorgeven bij het starten van de crawl om een melding te krijgen wanneer de crawl is voltooid.
Lijst pagina’s (pagineren/streamen met cursor)
Haal pagina’s op en herhaal metcursor en limit. Werkt terwijl de crawl in_progress of completed is.
Zoekopdracht (beperk tot top N relevant)
Gebruiksearch_query bij de start, en filter optioneel de lijst met search_query. Beperk per-pagina verkenning met top_n.
Inhoud ophalen
Gebruik deretrieve_id van elke pagina met /v1/retrieve om html_content en/of markdown_content op te halen.
Opmerkingen
- Paginering is cursor-gebaseerd; herhaal verzoeken totdat
cursorafwezig is. - Inhoudsvelden op
/v1/crawls/{crawl_id}/pageszijn verouderd; geef de voorkeur aan/v1/retrieve. - Webhooks: stel
webhook_urlin om een POST te ontvangen wanneer de crawl voltooid is.