Características
La integración proporciona 4 potentes APIs para la extracción automatizada de datos web:Extraer Sitio Web
Extrae contenido de cualquier URL en múltiples formatos (Markdown, HTML, JSON, texto)
Extraer URLs en Lote
Procesa hasta 100,000 URLs en paralelo. Perfecto para la extracción de datos a gran escala
Crear Crawl
Descubre y extrae automáticamente sitios web completos siguiendo enlaces
Crear Mapa
Extrae todas las URLs de un sitio web para el análisis de la estructura del sitio y descubrimiento de contenido
Instalación
Configuración
1. Instalar el Paquete
2. Importar y Registrar la Integración
En tu archivo de configuración de Mastra:3. Configurar la Clave de API
Establece tu clave de API de Olostep como una variable de entorno:.env:
APIs Disponibles
La integración expone 4 APIs que tus agentes de Mastra pueden usar:scrapeWebsite
Extrae contenido de una sola URL. Soporta múltiples formatos y renderizado de JavaScript. Casos de Uso:- Monitorear cambios en páginas específicas
- Extraer información de productos de sitios de comercio electrónico
- Recopilar datos de artículos de noticias o publicaciones de blogs
- Obtener contenido para agregación de contenido
Tu clave de API de Olostep
URL del sitio web a extraer (debe incluir http:// o https://)
Formatos de salida: [‘html’, ‘markdown’, ‘json’, ‘text’]
Código de país para contenido específico de ubicación (e.g., “US”, “GB”, “CA”)
Tiempo de espera en milisegundos para el renderizado de JavaScript (0-10000)
ID de parser opcional para extracción especializada (e.g., “@olostep/amazon-product”)
id- ID de extracciónurl_to_scrape- URL extraídaresult.markdown_content- Contenido en Markdownresult.html_content- Contenido en HTMLresult.json_content- Contenido en JSONresult.text_content- Contenido en textoresult.screenshot_hosted_url- URL de captura de pantalla (si está disponible)result.markdown_hosted_url- URL de Markdown alojadoobject- Tipo de objeto (“scrape”)created- Marca de tiempo Unix
batchScrape
Procesa múltiples URLs en paralelo (hasta 100,000 a la vez). Perfecto para la extracción de datos a gran escala. Casos de Uso:- Extraer catálogos de productos completos
- Extraer datos de múltiples resultados de búsqueda
- Procesar listas de URLs desde hojas de cálculo
- Extracción masiva de contenido
Tu clave de API de Olostep
Array de objetos con campos
url y custom_id opcionalEjemplo: [{"url":"https://example.com","custom_id":"site1"}]Formatos de salida para todas las URLs
Código de país para scraping específico de ubicación
Tiempo de espera en milisegundos para el renderizado de JavaScript
ID de parser opcional para extracción especializada
batch_id- ID de lote (usa esto para recuperar resultados más tarde)status- Estado del procesamientoobject- Tipo de objeto (“batch”)
createCrawl
Descubre y extrae automáticamente sitios web completos siguiendo enlaces. Perfecto para sitios de documentación, blogs y repositorios de contenido. Casos de Uso:- Rastrear y archivar sitios de documentación completos
- Extraer todas las publicaciones de un blog
- Construir bases de conocimiento a partir de contenido web
- Monitorear cambios en la estructura del sitio web
Tu clave de API de Olostep
URL de inicio para el rastreo (debe incluir http:// o https://)
Número máximo de páginas a rastrear
Si se deben seguir los enlaces encontrados en las páginas
Formato para el contenido extraído
Código de país opcional para rastreo específico de ubicación
ID de parser opcional para extracción de contenido especializada
id- ID de rastreo (usa esto para recuperar resultados más tarde)object- Tipo de objeto (“crawl”)status- Estado del rastreocreated- Marca de tiempo Unix
createMap
Extrae todas las URLs de un sitio web para el descubrimiento de contenido y análisis de la estructura del sitio. Casos de Uso:- Construir mapas del sitio y diagramas de estructura del sitio
- Descubrir todas las páginas antes de la extracción en lote
- Encontrar páginas rotas o faltantes
- Auditorías y análisis de SEO
Tu clave de API de Olostep
URL del sitio web para extraer enlaces (debe incluir http:// o https://)
Consulta de búsqueda opcional para filtrar URLs (e.g., “blog”)
Limitar el número de URLs devueltas
Patrones glob para incluir rutas específicas (e.g., [“/blog/**”])
Patrones glob para excluir rutas específicas (e.g., [“/admin/**”])
id- ID de mapaobject- Tipo de objeto (“map”)url- URL del sitio webtotal_urls- Total de URLs encontradasurls- Array de URLs descubiertas
Uso con Agentes
Ejemplo Básico de Agente
Crea un agente que pueda extraer sitios web:Ejemplo de Flujo de Trabajo de Agente
Construye un flujo de trabajo de investigación que descubra y extraiga contenido:Casos de Uso Populares
Agente de Investigación
Construye un agente que investigue temas de manera autónoma:Investigación de Múltiples Fuentes
Investigación de Múltiples Fuentes
Flujo de Trabajo:
- Usuario pregunta: “Investiga tendencias de IA”
- Agente usa
createMappara descubrir páginas relevantes - Agente usa
batchScrapepara extraer contenido - Agente analiza y resume los hallazgos
- Devuelve informe de investigación estructurado
Monitoreo de Competencia
Monitoreo de Competencia
Flujo de Trabajo:
- Programa monitoreo diario
- Usa
scrapeWebsitepara verificar páginas de competidores - Compara con datos previos
- Alerta sobre cambios significativos
- Genera informes semanales
Agregación de Contenido
Agregación de Contenido
Flujo de Trabajo:
- Usa
createCrawlpara descubrir todas las publicaciones de blog - Usa
batchScrapepara extraer contenido - Procesa con IA para extraer temas clave
- Almacena en base de conocimiento
- Genera calendario de contenido
Inteligencia de Comercio Electrónico
Monitorea productos y precios:Análisis SEO
Analiza la estructura y contenido del sitio web:Parsers Especializados
Olostep proporciona parsers preconstruidos para sitios web populares. Úsalos con el parámetroparser:
Búsqueda de Google
@olostep/google-searchExtrae: resultados de búsqueda, títulos, fragmentos, URLsGoogle Maps
@olostep/google-mapsExtrae: información de negocios, reseñas, calificaciones, ubicaciónUso de Parsers
Añade el ID del parser al parámetroparser:
Mejores Prácticas
Usa Procesamiento en Lote para Múltiples URLs
Usa Procesamiento en Lote para Múltiples URLs
Al extraer más de 3-5 URLs, usa
batchScrape en lugar de múltiples llamadas a scrapeWebsite. El procesamiento en lote es:- Mucho más rápido (procesamiento en paralelo)
- Más rentable
- Más fácil de gestionar
- Mejor para límites de tasa
Establece Tiempos de Espera Apropiados
Establece Tiempos de Espera Apropiados
Para sitios con mucho JavaScript, usa el parámetro
wait_before_scraping:- Sitios simples: 0-1000ms
- Sitios dinámicos: 2000-3000ms
- JavaScript pesado: 5000-8000ms
Usa Parsers Especializados
Usa Parsers Especializados
Para sitios web populares (Amazon, LinkedIn, Google), usa parsers preconstruidos:
- Obtén datos estructurados automáticamente
- Extracción más confiable
- No necesitas parsing personalizado
- Mantenidos por Olostep
Maneja Operaciones Asíncronas
Maneja Operaciones Asíncronas
Las operaciones Batch, Crawl y Map son asíncronas:
- Almacena el ID devuelto (batch_id, crawl_id, map_id)
- Realiza sondeos para la finalización o usa webhooks
- Configura flujos de trabajo separados para la recuperación
Manejo de Errores
Manejo de Errores
Siempre envuelve las llamadas a la API en bloques try-catch:
Límite de Tasa
Límite de Tasa
Ten en cuenta los límites de tasa:
- Espacia las solicitudes con demoras
- Usa procesamiento en lote cuando sea posible
- Monitorea el uso en el tablero de Olostep
- Mejora el plan si es necesario
Ejemplo Completo
Aquí tienes un ejemplo completo de cómo construir un agente de investigación:Solución de Problemas
Autenticación Fallida
Autenticación Fallida
Error: “Clave de API inválida”Soluciones:
- Verifica la clave de API desde el tablero
- Asegúrate de que la clave de API esté establecida en la variable de entorno
- Verifica que la clave de API esté activa
- Revisa si hay espacios extra en la clave de API
API No Encontrada
API No Encontrada
Error: “API no encontrada” o “Integración no registrada”Soluciones:
- Asegúrate de que
registerApis()se llame después de crear la integración - Verifica que la integración esté añadida a la configuración de Mastra
- Comprueba que el nombre de la integración sea ‘olostep’
- Reinicia el servidor de Mastra después de los cambios
La Extracción Devuelve Contenido Vacío
La Extracción Devuelve Contenido Vacío
Error: Los campos de contenido están vacíosSoluciones:
- Aumenta el tiempo de
wait_before_scraping - Verifica si el sitio web requiere inicio de sesión
- Prueba con un formato diferente (HTML vs Markdown)
- Verifica que la URL sea accesible
- Comprueba si el sitio bloquea el acceso automatizado
Límite de Tasa Excedido
Límite de Tasa Excedido
Error: “Límite de tasa excedido”Soluciones:
- Espacia las solicitudes con demoras
- Usa procesamiento en lote en lugar de extracciones individuales
- Mejora tu plan de Olostep
- Verifica el límite de tasa en el tablero
Errores de TypeScript
Errores de TypeScript
Error: Módulo no encontrado o errores de tipoSoluciones:
- Asegúrate de que
@mastra/coreesté instalado - Verifica la compatibilidad de la versión de TypeScript
- Comprueba que todas las dependencias estén instaladas
- Reconstruir:
npm run build
Precios
Olostep cobra en función del uso de la API, independiente de Mastra:- Extracciones: Pago por extracción
- Lotes: Pago por URL en lote
- Rastreos: Pago por página rastreada
- Mapas: Pago por operación de mapa
Soporte
¿Necesitas ayuda con la integración de Mastra?Documentación
Explora la documentación completa de la API
Correo de Soporte
Correo: info@olostep.com
Documentación de Mastra
Aprende sobre el marco de Mastra
Recursos Relacionados
API de Extracciones
Aprende sobre el endpoint de Extracciones
API de Lotes
Aprende sobre el endpoint de Lotes
API de Rastreos
Aprende sobre el endpoint de Rastreos
API de Mapas
Aprende sobre el endpoint de Mapas
Integración con Zapier
Automatiza con flujos de trabajo de Zapier
Integración con LangChain
Construye agentes de IA con LangChain
Sitio Web de Mastra
Plataforma Mastra
Comienza Ahora
¿Listo para construir agentes de IA con capacidades de scraping web?Instalar Paquete
Instala @olostep/mastra-tools desde npm