Saltar al contenido principal
POST
/
v1
/
crawls
Iniciar un nuevo rastreo
curl --request POST \
  --url https://api.olostep.com/v1/crawls \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "start_url": "<string>",
  "max_pages": 123,
  "include_urls": [
    "<string>"
  ],
  "exclude_urls": [
    "<string>"
  ],
  "max_depth": 123,
  "include_external": true,
  "include_subdomain": true,
  "search_query": "<string>",
  "top_n": 123,
  "webhook": "<string>",
  "timeout": 123,
  "follow_robots_txt": true,
  "scrape_options": {
    "formats": [
      "markdown",
      "screenshot"
    ],
    "parser": "@olostep/extract-emails"
  }
}
'
{
  "id": "<string>",
  "object": "<string>",
  "status": "<string>",
  "created": 123,
  "start_date": "<string>",
  "start_url": "<string>",
  "max_pages": 123,
  "max_depth": 123,
  "exclude_urls": [
    "<string>"
  ],
  "include_urls": [
    "<string>"
  ],
  "include_external": true,
  "search_query": "<string>",
  "top_n": 123,
  "current_depth": 123,
  "pages_count": 123,
  "webhook": "<string>",
  "follow_robots_txt": true
}
Recibe notificaciones al completar: Pasa el parámetro webhook con la URL de tu endpoint para recibir un HTTP POST cuando el rastreo se complete. Consulta Webhooks para más detalles.

Autorizaciones

Authorization
string
header
requerido

Encabezado de autenticación Bearer del formato Bearer , donde es tu token de autenticación.

Cuerpo

application/json
start_url
string
requerido

El punto de inicio del rastreo.

max_pages
number
requerido

Número máximo de páginas a rastrear. Recomendado para la mayoría de los casos de uso como rastrear un sitio web completo.

include_urls
string[]

Patrones de ruta URL para incluir en el rastreo usando la sintaxis glob. Por defecto es /** que incluye todas las URLs. Usa patrones como /blog/** para rastrear secciones específicas (por ejemplo, solo páginas de blog), /products/*.html para páginas de productos, o múltiples patrones para diferentes secciones. Soporta características estándar de glob como * (cualquier carácter) y ** (coincidencia recursiva).

exclude_urls
string[]

Nombres de ruta URL en patrón glob para excluir. Por ejemplo: /careers/**. Las URLs excluidas tendrán prioridad sobre las incluidas.

max_depth
number

Profundidad máxima del rastreo. Útil para extraer solo hasta n-grado de enlaces.

include_external
boolean

Rastrear enlaces externos de primer grado.

include_subdomain
boolean

Incluir subdominios del sitio web. false por defecto.

search_query
string

Una consulta de búsqueda opcional para encontrar enlaces específicos y también ordenar los resultados por relevancia.

top_n
number

Un número opcional para rastrear solo los N enlaces más relevantes en cada página según la consulta de búsqueda.

webhook
string<uri>

URL HTTPS para recibir una solicitud POST cuando el rastreo se complete. Debe ser una URL públicamente accesible usando el protocolo http:// o https://. No puede apuntar a localhost o direcciones IP privadas. Ver Webhooks para el formato de carga útil y comportamiento de reintento.

timeout
number

Terminar el rastreo después de n segundos con las páginas completadas hasta entonces. Puede tomar ~10s extra del tiempo de espera proporcionado.

follow_robots_txt
boolean
predeterminado:true

Si se deben respetar las reglas de robots.txt. Si se establece en false, el rastreador raspará el sitio web independientemente de las directivas de desautorización de robots.txt. true por defecto.

scrape_options
object

Controla lo que cada solicitud de raspado de página individual pide a la API de Olostep. Todos los campos son opcionales.

Respuesta

Rastreo iniciado con éxito.

id
string

ID de Rastreo

object
string

El tipo de objeto. "crawl" para este endpoint.

status
string

in_progress o completed

created
number

Tiempo de creación en epoch

start_date
string

Tiempo de creación en fecha

start_url
string
max_pages
number
max_depth
number
exclude_urls
string[]
include_urls
string[]
include_external
boolean
search_query
string
top_n
number
current_depth
number

La profundidad actual del proceso de rastreo.

pages_count
number

Conteo de páginas rastreadas

webhook
string
follow_robots_txt
boolean