Integración de Olostep + Apify

Olostep es una API de búsqueda, scraping y crawling web — una API para buscar, extraer y estructurar datos web. Esta guía muestra cómo usar Olostep con Apify Actors para construir pipelines de datos web confiables de extremo a extremo.

Lo que puedes construir

Scrapear Sitio Web

Extrae contenido de cualquier URL en Markdown, HTML, JSON o Texto

Scrapear URLs en Lote

Procesa grandes listas de URLs en paralelo con salidas estructuradas

Crear Crawl

Descubre y scrapea páginas enlazadas para construir conjuntos de datos completos

Crear Mapa

Extrae todas las URLs de un sitio web (descubrimiento tipo sitemap)

Respuestas impulsadas por IA

Haz preguntas y obtén respuestas JSON estructuradas con fuentes

Comienzo rápido

1) Instala Apify CLI

npm install -g apify-cli
apify --version

2) Obtén tu clave API de Olostep

Desde el Dashboard de Olostep → Claves API.

3) Ejecuta el Actor de Olostep localmente

cd olostep-tools/integrations/apify
apify run

El archivo de entrada local por defecto se encuentra en: olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json Ejemplo de entrada:

{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Despliega en Apify (nube)

apify login
apify push

Luego abre la Consola de Apify → Actores → ejecuta el actor con tu entrada deseada.

Ejecutar en la Consola de Apify (paso a paso)

Abre tu Actor en la Consola de Apify → Fuente → Entrada.
En la pestaña Manual verás un campo visible “Clave API de Olostep”. Pega tu clave desde el Dashboard de Olostep.
Elige una operación (por defecto es “scrape”).
Llena los campos relevantes (para “scrape”, establece “URL para Scrapear”).
Haz clic en Guardar → Iniciar.
Cuando la ejecución termine, abre la pestaña Dataset para descargar los resultados (JSON/CSV/Excel).

Notas:

Para “URL para Scrapear”, puedes pegar con o sin esquema. Si falta, el actor automáticamente antepone https://.
Si un sitio es pesado en JavaScript y ves un tiempo de espera agotado, establece “Esperar Antes de Scrapear” a 2000–5000 ms y ejecuta de nuevo.

Operaciones disponibles

Scrapear Sitio Web

Extrae contenido de una sola URL. Ideal para automatización a nivel de página.

operation

constant

predeterminado:"scrape"

Debe ser “scrape”

apiKey

string

requerido

Tu clave API de Olostep (Bearer)

url_to_scrape

string

requerido

La URL para scrapear (debe incluir http:// o https://)

formats

dropdown

predeterminado:"markdown"

Uno de: Markdown, HTML, JSON, Texto

country

string

Código de país opcional (ej., “US”, “GB”, “CA”)

wait_before_scraping

integer

Tiempo de espera opcional en ms para renderizado de JavaScript (0–10000)

parser

string

ID de parser opcional (ej., “@olostep/amazon-product”)

Campos de salida:

id, url, status, formats
markdown_content / html_content / json_content / text_content
URLs alojadas (si están disponibles), metadatos de la página

Scrapear URLs en Lote

Procesa muchas URLs a la vez con formato y estructura consistentes.

operation

constant

predeterminado:"batch"

Debe ser “batch”

apiKey

string

requerido

Tu clave API de Olostep

batch_array

text

requerido

Arreglo JSON de objetos con url y custom_id opcional
Ejemplo: [{"url":"https://example.com","custom_id":"site1"}]

formats

dropdown

predeterminado:"markdown"

Uno de: Markdown, HTML, JSON, Texto

country

string

Código de país opcional

wait_before_scraping

integer

Tiempo de espera opcional en ms para sitios JS

parser

string

ID de parser opcional

Campos de salida:

batch_id, status, total_urls, created_at, formats, country, parser, urls[]

Crear Crawl

Sigue enlaces y scrapea múltiples páginas desde una URL de inicio.

operation

constant

predeterminado:"crawl"

Debe ser “crawl”

apiKey

string

requerido

Tu clave API de Olostep

start_url

string

requerido

URL de inicio para el crawl

max_pages

integer

predeterminado:"10"

Máximo de páginas para scrapear

follow_links

boolean

predeterminado:"true"

Seguir enlaces en la página

formats

dropdown

predeterminado:"markdown"

Uno de: Markdown, HTML, JSON, Texto

country

string

Código de país opcional

parser

string

ID de parser opcional

Campos de salida:

crawl_id, object, status, start_url, max_pages, follow_links, created, formats

Crear Mapa

Descubre todas las URLs en un sitio web y prepárate para scrapear en lote más tarde.

operation

constant

predeterminado:"map"

Debe ser “map”

apiKey

string

requerido

Tu clave API de Olostep

website_url

string

requerido

El sitio web para mapear

search_query

string

Filtro de consulta opcional

top_n

integer

Limitar número de URLs

include_patterns

string

Incluir glob(s), ej. “/products/**”

exclude_patterns

string

Excluir glob(s), ej. “/admin/**”

Campos de salida:

map_id, object, website_url, total_urls, urls[], search_query, top_n

Ejemplos de JSON para copiar y pegar (Consola → Entrada → JSON)

Scrape

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

Batch

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

Crawl

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

Map

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

Answers

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

Ejemplos de flujos de trabajo

Descubrir y Scrapear Productos

Crear Mapa → incluir “/products/**”
Analizar URLs → construir arreglo de lote
Scrapear URLs en Lote → formatos: JSON
Enviar a Google Sheets / Airtable

Monitoreo de Contenido Diario

Programar actor (diario)
Scrapear Sitio Web → formatos: Markdown
Resumir con LLM
Notificar en Slack

Base de Conocimiento de Competencia

Crear Crawl (blog/docs)
Almacenar salidas en Notion
Refrescar semanalmente con Programación

Parsers especializados

Olostep soporta parsers para estructurar datos de sitios populares.

Producto de Amazon

@olostep/amazon-product → título, precio, calificación, reseñas, imágenes, variantes

Búsqueda de Google

@olostep/google-search → resultados, títulos, fragmentos, URLs

Google Maps

@olostep/google-maps → información de negocios, reseñas, calificaciones, ubicación

Más Parsers

Explora extractores de email, buscadores de redes sociales, extractores de enlaces de calendario y más

Mejores prácticas

Prefiere lote para 3+ URLs

Más rápido, más barato, más fácil de monitorear y respetar los límites de tasa.

Usa tiempos de espera apropiados

Sitios pesados en JS: aumenta wait_before_scraping (ej., 2000–5000ms).

Filtra antes de scrapear

Evita tareas innecesarias — verifica cambios primero, mantén el estado de desduplicación.

Almacena contenido grande vía URLs alojadas

Usa salidas alojadas para evitar límites de tamaño de carga en flujos de Apify.

Trata operaciones asíncronas como de larga duración

Batch/Crawl/Map devuelven IDs; recupéralos más tarde o encadénalos con un retraso.

Maneja tiempos de espera transitorios limpiamente

Si ves un 504 o un tiempo de espera transitorio, el actor automáticamente reintenta una vez con un corto tiempo de espera.
También puedes establecer “Esperar Antes de Scrapear” a 2000–5000 ms para páginas pesadas en JS.

Solución de problemas

Autenticación fallida

Verifica la clave API desde el dashboard
Elimina espacios finales
Vuelve a ingresar en el formulario de entrada de Apify

Contenido vacío

Aumenta el tiempo de espera
Verifica que la URL sea pública / no requiera inicio de sesión
Prueba un formato de salida diferente

Límite de tasa excedido

Espacia las ejecuciones mediante programación
Prefiere lote para muchas URLs
Actualiza el plan de Olostep si es necesario

Sitios bloqueados o dinámicos

Prueba el parámetro de país
Ajusta la espera y el parser
Contacta al soporte para orientación

Precios

Olostep cobra por uso de API (independiente de Apify):

Scrapes → por scrape
Batches → por URL
Crawls → por página
Maps → por operación

Consulta https://olostep.com/pricing.

Seguridad

Tu clave API se envía como token Bearer en tiempo de ejecución.
No cometas claves en el control de versiones; Apify almacena entradas en Key‑Value Store.
En desarrollo local, mantén las claves en storage/key_value_stores/default/INPUT.json (gitignored).

Recursos relacionados

API de Scrapes

Extrae Markdown, HTML, texto o JSON estructurado compatible con LLM de cualquier URL.

API de Batches

Procesa hasta 10k URLs simultáneamente y recupera resultados más tarde.

API de Crawls

Descubre y scrapea recursivamente el contenido de un sitio.

API de Maps

Obtén todas las URLs en un sitio web para preparar scrapes en lote.

Soporte

Sitio Web de Apify

Plataforma Apify

Documentación de Apify

Documentación de la plataforma y SDK de Apify

Documentación

Documentación completa de la API

Correo de Soporte

info@olostep.com

Comenzar

Características

Integraciones

Documentation Index

​Lo que puedes construir

Scrapear Sitio Web

Scrapear URLs en Lote

Crear Crawl

Crear Mapa

Respuestas impulsadas por IA

​Comienzo rápido

​1) Instala Apify CLI

​2) Obtén tu clave API de Olostep

​3) Ejecuta el Actor de Olostep localmente

​4) Despliega en Apify (nube)

​Ejecutar en la Consola de Apify (paso a paso)

​Operaciones disponibles

​Scrapear Sitio Web

​Scrapear URLs en Lote

​Crear Crawl

​Crear Mapa

​Ejemplos de JSON para copiar y pegar (Consola → Entrada → JSON)

​Scrape

​Batch

​Crawl

​Map

​Answers

​Ejemplos de flujos de trabajo

​Parsers especializados

Producto de Amazon

Búsqueda de Google

Google Maps

Más Parsers

​Mejores prácticas

​Solución de problemas

​Precios

​Seguridad

​Recursos relacionados

API de Scrapes

API de Batches

API de Crawls

API de Maps

​Soporte

Sitio Web de Apify

Documentación de Apify

Documentación

Correo de Soporte

Lo que puedes construir

Comienzo rápido

1) Instala Apify CLI

2) Obtén tu clave API de Olostep

3) Ejecuta el Actor de Olostep localmente

4) Despliega en Apify (nube)

Ejecutar en la Consola de Apify (paso a paso)

Operaciones disponibles

Scrapear Sitio Web

Scrapear URLs en Lote

Crear Crawl

Crear Mapa

Ejemplos de JSON para copiar y pegar (Consola → Entrada → JSON)

Scrape

Batch

Crawl

Map

Answers

Ejemplos de flujos de trabajo

Parsers especializados

Mejores prácticas

Solución de problemas

Precios

Seguridad

Recursos relacionados

Soporte