Saltar al contenido principal
Olostep es una API de búsqueda, scraping y crawling web — una API para buscar, extraer y estructurar datos web. Esta guía muestra cómo usar Olostep con Apify Actors para construir pipelines de datos web confiables de extremo a extremo.

Lo que puedes construir

Scrapear Sitio Web

Extrae contenido de cualquier URL en Markdown, HTML, JSON o Texto

Scrapear URLs en Lote

Procesa grandes listas de URLs en paralelo con salidas estructuradas

Crear Crawl

Descubre y scrapea páginas enlazadas para construir conjuntos de datos completos

Crear Mapa

Extrae todas las URLs de un sitio web (descubrimiento tipo sitemap)

Respuestas impulsadas por IA

Haz preguntas y obtén respuestas JSON estructuradas con fuentes

Comienzo rápido

1) Instala Apify CLI

npm install -g apify-cli
apify --version

2) Obtén tu clave API de Olostep

Desde el Dashboard de Olostep → Claves API.

3) Ejecuta el Actor de Olostep localmente

cd olostep-tools/integrations/apify
apify run
El archivo de entrada local por defecto se encuentra en: olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json Ejemplo de entrada:
{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Despliega en Apify (nube)

apify login
apify push
Luego abre la Consola de Apify → Actores → ejecuta el actor con tu entrada deseada.

Ejecutar en la Consola de Apify (paso a paso)

  1. Abre tu Actor en la Consola de Apify → Fuente → Entrada.
  2. En la pestaña Manual verás un campo visible “Clave API de Olostep”. Pega tu clave desde el Dashboard de Olostep.
  3. Elige una operación (por defecto es “scrape”).
  4. Llena los campos relevantes (para “scrape”, establece “URL para Scrapear”).
  5. Haz clic en Guardar → Iniciar.
  6. Cuando la ejecución termine, abre la pestaña Dataset para descargar los resultados (JSON/CSV/Excel).
Notas:
  • Para “URL para Scrapear”, puedes pegar con o sin esquema. Si falta, el actor automáticamente antepone https://.
  • Si un sitio es pesado en JavaScript y ves un tiempo de espera agotado, establece “Esperar Antes de Scrapear” a 2000–5000 ms y ejecuta de nuevo.

Operaciones disponibles

Scrapear Sitio Web

Extrae contenido de una sola URL. Ideal para automatización a nivel de página.
operation
constant
predeterminado:"scrape"
Debe ser “scrape”
apiKey
string
requerido
Tu clave API de Olostep (Bearer)
url_to_scrape
string
requerido
La URL para scrapear (debe incluir http:// o https://)
formats
dropdown
predeterminado:"markdown"
Uno de: Markdown, HTML, JSON, Texto
country
string
Código de país opcional (ej., “US”, “GB”, “CA”)
wait_before_scraping
integer
Tiempo de espera opcional en ms para renderizado de JavaScript (0–10000)
parser
string
ID de parser opcional (ej., “@olostep/amazon-product”)
Campos de salida:
  • id, url, status, formats
  • markdown_content / html_content / json_content / text_content
  • URLs alojadas (si están disponibles), metadatos de la página

Scrapear URLs en Lote

Procesa muchas URLs a la vez con formato y estructura consistentes.
operation
constant
predeterminado:"batch"
Debe ser “batch”
apiKey
string
requerido
Tu clave API de Olostep
batch_array
text
requerido
Arreglo JSON de objetos con url y custom_id opcional
Ejemplo: [{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
predeterminado:"markdown"
Uno de: Markdown, HTML, JSON, Texto
country
string
Código de país opcional
wait_before_scraping
integer
Tiempo de espera opcional en ms para sitios JS
parser
string
ID de parser opcional
Campos de salida:
  • batch_id, status, total_urls, created_at, formats, country, parser, urls[]

Crear Crawl

Sigue enlaces y scrapea múltiples páginas desde una URL de inicio.
operation
constant
predeterminado:"crawl"
Debe ser “crawl”
apiKey
string
requerido
Tu clave API de Olostep
start_url
string
requerido
URL de inicio para el crawl
max_pages
integer
predeterminado:"10"
Máximo de páginas para scrapear
Seguir enlaces en la página
formats
dropdown
predeterminado:"markdown"
Uno de: Markdown, HTML, JSON, Texto
country
string
Código de país opcional
parser
string
ID de parser opcional
Campos de salida:
  • crawl_id, object, status, start_url, max_pages, follow_links, created, formats

Crear Mapa

Descubre todas las URLs en un sitio web y prepárate para scrapear en lote más tarde.
operation
constant
predeterminado:"map"
Debe ser “map”
apiKey
string
requerido
Tu clave API de Olostep
website_url
string
requerido
El sitio web para mapear
search_query
string
Filtro de consulta opcional
top_n
integer
Limitar número de URLs
include_patterns
string
Incluir glob(s), ej. “/products/**”
exclude_patterns
string
Excluir glob(s), ej. “/admin/**”
Campos de salida:
  • map_id, object, website_url, total_urls, urls[], search_query, top_n

Ejemplos de JSON para copiar y pegar (Consola → Entrada → JSON)

Scrape

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

Batch

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

Crawl

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

Map

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

Answers

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

Ejemplos de flujos de trabajo

  1. Crear Mapa → incluir “/products/**”
  2. Analizar URLs → construir arreglo de lote
  3. Scrapear URLs en Lote → formatos: JSON
  4. Enviar a Google Sheets / Airtable
  1. Programar actor (diario)
  2. Scrapear Sitio Web → formatos: Markdown
  3. Resumir con LLM
  4. Notificar en Slack
  1. Crear Crawl (blog/docs)
  2. Almacenar salidas en Notion
  3. Refrescar semanalmente con Programación

Parsers especializados

Olostep soporta parsers para estructurar datos de sitios populares.

Producto de Amazon

@olostep/amazon-product → título, precio, calificación, reseñas, imágenes, variantes

Búsqueda de Google

@olostep/google-search → resultados, títulos, fragmentos, URLs

Google Maps

@olostep/google-maps → información de negocios, reseñas, calificaciones, ubicación

Más Parsers

Explora extractores de email, buscadores de redes sociales, extractores de enlaces de calendario y más

Mejores prácticas

Más rápido, más barato, más fácil de monitorear y respetar los límites de tasa.
Sitios pesados en JS: aumenta wait_before_scraping (ej., 2000–5000ms).
Evita tareas innecesarias — verifica cambios primero, mantén el estado de desduplicación.
Usa salidas alojadas para evitar límites de tamaño de carga en flujos de Apify.
Batch/Crawl/Map devuelven IDs; recupéralos más tarde o encadénalos con un retraso.
Si ves un 504 o un tiempo de espera transitorio, el actor automáticamente reintenta una vez con un corto tiempo de espera.
También puedes establecer “Esperar Antes de Scrapear” a 2000–5000 ms para páginas pesadas en JS.

Solución de problemas

  • Verifica la clave API desde el dashboard
  • Elimina espacios finales
  • Vuelve a ingresar en el formulario de entrada de Apify
  • Aumenta el tiempo de espera
  • Verifica que la URL sea pública / no requiera inicio de sesión
  • Prueba un formato de salida diferente
  • Espacia las ejecuciones mediante programación
  • Prefiere lote para muchas URLs
  • Actualiza el plan de Olostep si es necesario
  • Prueba el parámetro de país
  • Ajusta la espera y el parser
  • Contacta al soporte para orientación

Precios

Olostep cobra por uso de API (independiente de Apify):
  • Scrapes → por scrape
  • Batches → por URL
  • Crawls → por página
  • Maps → por operación
Consulta https://olostep.com/pricing.

Seguridad

  • Tu clave API se envía como token Bearer en tiempo de ejecución.
  • No cometas claves en el control de versiones; Apify almacena entradas en Key‑Value Store.
  • En desarrollo local, mantén las claves en storage/key_value_stores/default/INPUT.json (gitignored).

Recursos relacionados

API de Scrapes

Extrae Markdown, HTML, texto o JSON estructurado compatible con LLM de cualquier URL.

API de Batches

Procesa hasta 10k URLs simultáneamente y recupera resultados más tarde.

API de Crawls

Descubre y scrapea recursivamente el contenido de un sitio.

API de Maps

Obtén todas las URLs en un sitio web para preparar scrapes en lote.

Soporte

Sitio Web de Apify

Plataforma Apify

Documentación de Apify

Documentación de la plataforma y SDK de Apify

Documentación

Documentación completa de la API

Correo de Soporte