Saltar al contenido principal
Olostep es una API de búsqueda, scraping y rastreo web — una API para buscar, extraer y estructurar datos web. Esta guía muestra cómo usar Olostep con Apify Actors para construir flujos de datos web confiables de extremo a extremo.

Lo que puedes construir

Extraer Sitio Web

Extrae contenido de cualquier URL en Markdown, HTML, JSON o Texto

Extraer URLs en Lote

Procesa grandes listas de URLs en paralelo con salidas estructuradas

Crear Rastreo

Descubre y extrae páginas enlazadas para construir conjuntos de datos completos

Crear Mapa

Extrae todas las URLs de un sitio web (descubrimiento tipo sitemap)

Respuestas impulsadas por IA

Haz preguntas y obtén respuestas JSON estructuradas con fuentes

Inicio rápido

1) Instalar Apify CLI

npm install -g apify-cli
apify --version

2) Obtén tu clave API de Olostep

Desde el Dashboard de Olostep → Claves API.

3) Ejecuta el Actor de Olostep localmente

cd olostep-tools/integrations/apify
apify run
El archivo de entrada local predeterminado se encuentra en: olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json Ejemplo de entrada:
{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Desplegar en Apify (nube)

apify login
apify push
Luego abre la Consola de Apify → Actores → ejecuta el actor con tu entrada deseada.

Ejecutar en la Consola de Apify (paso a paso)

  1. Abre tu Actor en la Consola de Apify → Fuente → Entrada.
  2. En la pestaña Manual verás un campo visible “Clave API de Olostep”. Pega tu clave desde el Dashboard de Olostep.
  3. Elige una operación (por defecto es “scrape”).
  4. Rellena los campos relevantes (para “scrape”, establece “URL para Extraer”).
  5. Haz clic en Guardar → Iniciar.
  6. Cuando la ejecución termine, abre la pestaña Conjunto de Datos para descargar resultados (JSON/CSV/Excel).
Notas:
  • Para “URL para Extraer”, puedes pegar con o sin esquema. Si falta, el actor automáticamente antepone https://.
  • Si un sitio tiene mucho JavaScript y ves un tiempo de espera, establece “Esperar Antes de Extraer” a 2000–5000 ms y ejecuta de nuevo.

Operaciones disponibles

Extraer Sitio Web

Extrae contenido de una sola URL. Ideal para automatización a nivel de página.
operation
constant
predeterminado:"scrape"
Debe ser “scrape”
apiKey
string
requerido
Tu clave API de Olostep (Bearer)
url_to_scrape
string
requerido
La URL para extraer (debe incluir http:// o https://)
formats
dropdown
predeterminado:"markdown"
Uno de: Markdown, HTML, JSON, Texto
country
string
Código de país opcional (por ejemplo, “US”, “GB”, “CA”)
wait_before_scraping
integer
Tiempo de espera opcional en ms para renderizado de JavaScript (0–10000)
parser
string
ID de parser opcional (por ejemplo, “@olostep/amazon-product”)
Campos de salida:
  • id, url, estado, formatos
  • markdown_content / html_content / json_content / text_content
  • URLs alojadas (si están disponibles), metadatos de la página

Extraer URLs en Lote

Procesa muchas URLs a la vez con formato y estructura consistentes.
operation
constant
predeterminado:"batch"
Debe ser “batch”
apiKey
string
requerido
Tu clave API de Olostep
batch_array
text
requerido
Array JSON de objetos con url y custom_id opcional
Ejemplo: [{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
predeterminado:"markdown"
Uno de: Markdown, HTML, JSON, Texto
country
string
Código de país opcional
wait_before_scraping
integer
Tiempo de espera opcional en ms para sitios JS
parser
string
ID de parser opcional
Campos de salida:
  • batch_id, estado, total_urls, created_at, formatos, país, parser, urls[]

Crear Rastreo

Sigue enlaces y extrae múltiples páginas desde una URL de inicio.
operation
constant
predeterminado:"crawl"
Debe ser “crawl”
apiKey
string
requerido
Tu clave API de Olostep
start_url
string
requerido
URL de inicio para el rastreo
max_pages
integer
predeterminado:"10"
Máximo de páginas a rastrear
Seguir enlaces en la página
formats
dropdown
predeterminado:"markdown"
Uno de: Markdown, HTML, JSON, Texto
country
string
Código de país opcional
parser
string
ID de parser opcional
Campos de salida:
  • crawl_id, objeto, estado, start_url, max_pages, follow_links, creado, formatos

Crear Mapa

Descubre todas las URLs en un sitio web y prepáralas para extracción en lote posterior.
operation
constant
predeterminado:"map"
Debe ser “map”
apiKey
string
requerido
Tu clave API de Olostep
website_url
string
requerido
El sitio web para mapear
search_query
string
Filtro de consulta opcional
top_n
integer
Limitar número de URLs
include_patterns
string
Incluir glob(s), por ejemplo, “/products/**”
exclude_patterns
string
Excluir glob(s), por ejemplo, “/admin/**”
Campos de salida:
  • map_id, objeto, website_url, total_urls, urls[], search_query, top_n

Copiar y pegar ejemplos JSON (Consola → Entrada → JSON)

Extraer

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

Lote

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

Rastreo

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

Mapa

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

Respuestas

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

Ejemplos de flujos de trabajo

  1. Crear Mapa → incluir “/products/**”
  2. Analizar URLs → construir array de lote
  3. Extraer URLs en Lote → formatos: JSON
  4. Enviar a Google Sheets / Airtable
  1. Programar actor (diario)
  2. Extraer Sitio Web → formatos: Markdown
  3. Resumir con LLM
  4. Notificar en Slack
  1. Crear Rastreo (blog/docs)
  2. Almacenar salidas en Notion
  3. Refrescar semanalmente con Programación

Parsers especializados

Olostep soporta parsers para estructurar datos de sitios populares.

Producto de Amazon

@olostep/amazon-product → título, precio, calificación, reseñas, imágenes, variantes

Búsqueda de Google

@olostep/google-search → resultados, títulos, fragmentos, URLs

Google Maps

@olostep/google-maps → información de negocios, reseñas, calificaciones, ubicación

Más Parsers

Explora extractores de correo electrónico, buscadores de redes sociales, extractores de enlaces de calendario y más

Mejores prácticas

Más rápido, más barato, más fácil de monitorear y respetar límites de tasa.
Sitios pesados en JS: aumentar wait_before_scraping (por ejemplo, 2000–5000ms).
Evita tareas innecesarias — verifica cambios primero, mantén el estado de deduplicación.
Usa salidas alojadas para evitar límites de tamaño de carga en flujos de Apify.
Batch/Crawl/Map devuelven IDs; recupérelos más tarde o encadene con un retraso.
Si ves un 504 o un tiempo de espera transitorio, el actor automáticamente reintenta una vez con un corto tiempo de espera.
También puedes establecer “Esperar Antes de Extraer” a 2000–5000 ms para páginas pesadas en JS.

Solución de problemas

  • Verifica la clave API desde el dashboard
  • Elimina espacios finales
  • Vuelve a ingresar en el formulario de entrada de Apify
  • Aumenta el tiempo de espera
  • Verifica que la URL sea pública / no requiera inicio de sesión
  • Prueba un formato de salida diferente
  • Espaciar ejecuciones mediante programación
  • Preferir lote para muchas URLs
  • Actualizar plan de Olostep si es necesario
  • Probar parámetro de país
  • Ajustar espera y parser
  • Contactar soporte para orientación

Precios

Olostep cobra por uso de API (independiente de Apify):
  • Scrapes → por extracción
  • Batches → por URL
  • Crawls → por página
  • Maps → por operación
Consulta https://olostep.com/pricing.

Seguridad

  • Tu clave API se envía como token Bearer en tiempo de ejecución.
  • No cometas claves en control de versiones; Apify almacena entradas en Key‑Value Store.
  • En desarrollo local, mantén las claves en storage/key_value_stores/default/INPUT.json (gitignored).

Recursos relacionados

Soporte