/v1/crawls de Olostep, puedes rastrear un sitio web y obtener el contenido de todas las páginas.
- Rastrea un sitio web y obtiene el contenido de todas las subpáginas (o limita la profundidad del rastreo)
- Usa patrones especiales para rastrear páginas específicas (por ejemplo,
/blog/**) - Pasa un
webhook_urlpara recibir notificaciones cuando el rastreo esté completo - Consulta de búsqueda para encontrar solo páginas específicas y ordenar por relevancia
Instalación
Iniciar un rastreo
Proporciona la URL de inicio, incluye/excluye globs de URL, ymax_pages. Opcional: max_depth, include_external, include_subdomain, search_query, top_n, webhook_url, timeout.
crawl en respuesta. El objeto crawl tiene algunas propiedades como id y status, que puedes usar para rastrear el progreso del rastreo.
Comprobar el estado del rastreo
Consulta el rastreo para seguir el progreso hasta que elstatus sea completed.
webhook_url al iniciar el rastreo para ser notificado cuando el rastreo esté completo.
Listar páginas (paginación/stream con cursor)
Obtén páginas e itera usandocursor y limit. Funciona mientras el rastreo está in_progress o completed.
Consulta de búsqueda (limitar a los N más relevantes)
Usasearch_query al inicio, y opcionalmente filtra la lista con search_query. Limita la exploración por página con top_n.
Recuperar contenido
Usa elretrieve_id de cada página con /v1/retrieve para obtener html_content y/o markdown_content.
Notas
- La paginación se basa en cursor; repite solicitudes hasta que el
cursoresté ausente. - Los campos de contenido en
/v1/crawls/{crawl_id}/pagesestán obsoletos; prefiere/v1/retrieve. - Webhooks: establece
webhook_urlpara recibir un POST cuando el rastreo se complete.