Inicia un nuevo rastreo. Recibes un id para seguir el progreso. La operación puede tardar de 1 a 10 minutos dependiendo del sitio y de los parámetros de profundidad y páginas.
Encabezado de autenticación Bearer del formato Bearer
El punto de inicio del rastreo.
Número máximo de páginas a rastrear. Recomendado para la mayoría de los casos de uso como rastrear un sitio web completo.
Patrones de ruta URL para incluir en el rastreo usando la sintaxis glob. Por defecto es /** que incluye todas las URLs. Usa patrones como /blog/** para rastrear secciones específicas (por ejemplo, solo páginas de blog), /products/*.html para páginas de productos, o múltiples patrones para diferentes secciones. Soporta características estándar de glob como * (cualquier carácter) y ** (coincidencia recursiva).
Nombres de ruta URL en patrón glob para excluir. Por ejemplo: /careers/**. Las URLs excluidas tendrán prioridad sobre las incluidas.
Profundidad máxima del rastreo. Útil para extraer solo hasta n-grado de enlaces.
Rastrear enlaces externos de primer grado.
Incluir subdominios del sitio web. false por defecto.
Una consulta de búsqueda opcional para encontrar enlaces específicos y también ordenar los resultados por relevancia.
Un número opcional para rastrear solo los N enlaces más relevantes en cada página según la consulta de búsqueda.
URL HTTPS para recibir una solicitud POST cuando el rastreo se complete. Debe ser una URL públicamente accesible usando el protocolo http:// o https://. No puede apuntar a localhost o direcciones IP privadas. Ver Webhooks para el formato de carga útil y comportamiento de reintento.
Terminar el rastreo después de n segundos con las páginas completadas hasta entonces. Puede tomar ~10s extra del tiempo de espera proporcionado.
Si se deben respetar las reglas de robots.txt. Si se establece en false, el rastreador raspará el sitio web independientemente de las directivas de desautorización de robots.txt. true por defecto.
Controla lo que cada solicitud de raspado de página individual pide a la API de Olostep. Todos los campos son opcionales.
Rastreo iniciado con éxito.
ID de Rastreo
El tipo de objeto. "crawl" para este endpoint.
in_progress o completed
Tiempo de creación en epoch
Tiempo de creación en fecha
La profundidad actual del proceso de rastreo.
Conteo de páginas rastreadas