Crear Rastreo

curl --request POST \ --url https://api.olostep.com/v1/crawls \ --header 'Authorization: Bearer <token>' \ --header 'Content-Type: application/json' \ --data ' { "start_url": "<string>", "max_pages": 123, "include_urls": [ "<string>" ], "exclude_urls": [ "<string>" ], "max_depth": 123, "include_external": true, "include_subdomain": true, "search_query": "<string>", "top_n": 123, "webhook": "<string>", "timeout": 123, "follow_robots_txt": true, "scrape_options": { "formats": [ "markdown", "screenshot" ], "parser": "@olostep/extract-emails" } } '

{ "id": "<string>", "object": "<string>", "status": "<string>", "created": 123, "start_date": "<string>", "start_url": "<string>", "max_pages": 123, "max_depth": 123, "exclude_urls": [ "<string>" ], "include_urls": [ "<string>" ], "include_external": true, "search_query": "<string>", "top_n": 123, "current_depth": 123, "pages_count": 123, "webhook": "<string>", "follow_robots_txt": true }

Autorizaciones

Authorization

string

header

requerido

Encabezado de autenticación Bearer del formato Bearer , donde es tu token de autenticación.

Cuerpo

application/json

start_url

string

requerido

El punto de inicio del rastreo.

max_pages

number

requerido

Número máximo de páginas a rastrear. Recomendado para la mayoría de los casos de uso como rastrear un sitio web completo.

include_urls

string[]

Patrones de ruta URL para incluir en el rastreo usando la sintaxis glob. Por defecto es /** que incluye todas las URLs. Usa patrones como /blog/** para rastrear secciones específicas (por ejemplo, solo páginas de blog), /products/*.html para páginas de productos, o múltiples patrones para diferentes secciones. Soporta características estándar de glob como * (cualquier carácter) y ** (coincidencia recursiva).

exclude_urls

string[]

Nombres de ruta URL en patrón glob para excluir. Por ejemplo: /careers/**. Las URLs excluidas tendrán prioridad sobre las incluidas.

max_depth

number

Profundidad máxima del rastreo. Útil para extraer solo hasta n-grado de enlaces.

include_external

boolean

Rastrear enlaces externos de primer grado.

include_subdomain

boolean

Incluir subdominios del sitio web. false por defecto.

search_query

string

Una consulta de búsqueda opcional para encontrar enlaces específicos y también ordenar los resultados por relevancia.

top_n

number

Un número opcional para rastrear solo los N enlaces más relevantes en cada página según la consulta de búsqueda.

webhook

string<uri>

URL HTTPS para recibir una solicitud POST cuando el rastreo se complete. Debe ser una URL públicamente accesible usando el protocolo http:// o https://. No puede apuntar a localhost o direcciones IP privadas. Ver Webhooks para el formato de carga útil y comportamiento de reintento.

timeout

number

Terminar el rastreo después de n segundos con las páginas completadas hasta entonces. Puede tomar ~10s extra del tiempo de espera proporcionado.

follow_robots_txt

boolean

predeterminado:true

Si se deben respetar las reglas de robots.txt. Si se establece en false, el rastreador raspará el sitio web independientemente de las directivas de desautorización de robots.txt. true por defecto.

scrape_options

object

Controla lo que cada solicitud de raspado de página individual pide a la API de Olostep. Todos los campos son opcionales.

Show child attributes

Respuesta

Rastreo iniciado con éxito.

string

ID de Rastreo

object

string

El tipo de objeto. "crawl" para este endpoint.

status

string

in_progress o completed

created

number

Tiempo de creación en epoch

start_date

string

Tiempo de creación en fecha

start_url

string

max_pages

number

max_depth

number

exclude_urls

string[]

include_urls

string[]

include_external

boolean

search_query

string

top_n

number

current_depth

number

La profundidad actual del proceso de rastreo.

pages_count

number

Conteo de páginas rastreadas

webhook

string

follow_robots_txt

boolean

Común

Raspaduras

Lotes

Rastreos

Mapas

Respuestas

Buscar

Archivos

Horarios

Recuperar

Autorizaciones

Cuerpo

Respuesta

Común

Raspaduras

Lotes

Rastreos

Mapas

Respuestas

Buscar

Archivos

Horarios

Recuperar

Documentation Index

Autorizaciones

Cuerpo

Respuesta