Características
La integración proporciona 6 operaciones potentes para la extracción automatizada de datos web:Raspar Sitio Web
Buscar
Respuestas (IA)
Raspar URLs en Lote
Crear Rastreo
Crear Mapa
Instalación
1. Instala el Nodo
Instala el paquete de nodo de Olostep a través de npm:2. Conecta Tu Cuenta
La primera vez que uses el nodo de Olostep en un flujo de trabajo, necesitarás configurar credenciales:- Añade el nodo “Olostep Scrape” a tu flujo de trabajo
- Haz clic en el nodo para abrir su configuración
- Haz clic en “Crear Nueva Credencial” o selecciona credenciales existentes
- Ingresa tu clave API de Olostep
- Haz clic en “Guardar” para almacenar la credencial
Acciones Disponibles
Raspar Sitio Web
Extrae contenido de una URL única. Soporta múltiples formatos y renderizado de JavaScript. Casos de Uso:- Monitorear cambios en páginas específicas
- Extraer información de productos de sitios de comercio electrónico
- Recolectar datos de artículos de noticias o publicaciones de blogs
- Obtener contenido para agregación de contenido
- ID de Raspeo
- URL Raspada
- Contenido Markdown
- Contenido HTML
- Contenido JSON
- Contenido de Texto
- Estado
- Marca de Tiempo
- URL de Captura de Pantalla (si está disponible)
- Metadatos de la Página
Monitorear Precios de la Competencia
Monitorear Precios de la Competencia
- URL: Página de producto de la competencia
- Formato: JSON
- Parser: @olostep/amazon-product
- Añadir datos de precios a la hoja de seguimiento
- Alertar al equipo sobre cambios de precio
Extraer y Guardar Publicaciones de Blog
Extraer y Guardar Publicaciones de Blog
- URL: {{$json.link}}
- Formato: Markdown
- Guardar contenido del artículo en la base de datos de Notion
Enriquecimiento de Leads
Enriquecimiento de Leads
- URL: Sitio web de la empresa desde la hoja
- Formato: Markdown
- Extraer información de la empresa usando IA
- Añadir datos enriquecidos de vuelta a la hoja
Buscar
Busca en la Web una consulta dada y obtén resultados estructurados (resultados de búsqueda basados en parser, no IA). Casos de Uso:- Flujos de trabajo de investigación automatizada
- Descubrimiento y enriquecimiento de leads
- Análisis competitivo
- Investigación de contenido
Investigación Automatizada
Investigación Automatizada
- Consulta: “últimos desarrollos en IA”
- Extraer y formatear información clave
- Almacenar hallazgos de investigación
Descubrimiento de Leads
Descubrimiento de Leads
- Consulta: ”{{$json.searchTerm}}”
- Almacenar leads con información de contacto
Raspar URLs en Lote
Raspa hasta 10k URLs al mismo tiempo. Perfecto para la extracción de datos a gran escala. Casos de Uso:- Raspar catálogos de productos completos
- Extraer datos de múltiples resultados de búsqueda
- Procesar listas de URLs desde hojas de cálculo
- Extracción de contenido en masa
[{"url":"https://example.com","custom_id":"site1"}]- ID de Lote (úsalo para recuperar resultados más tarde)
- Estado
- Total de URLs
- Creado En
- Formato Solicitado
- Código de País
- Parser Usado
Raspar Catálogo de Productos
Raspar Catálogo de Productos
- Convertir CSV/lista a formato de array JSON
- URLs: {{$json.urlArray}}
- Formato: JSON
- Parser: @olostep/amazon-product
- Enviar ID de lote a tu sistema para recuperación
Monitoreo Diario de Contenido
Monitoreo Diario de Contenido
- Obtener URLs para monitorear
- Convertir a formato de array de lote
- Procesar todas las URLs a la vez
- Notificar al equipo que el scraping está completo
Crear Rastreo
Obtén el contenido de las subpáginas de una URL. Descubre y raspa sitios web enteros de manera autónoma siguiendo enlaces. Perfecto para sitios de documentación, blogs y repositorios de contenido. Casos de Uso:- Rastrear y archivar sitios de documentación completos
- Extraer todas las publicaciones de blog de un sitio web
- Construir bases de conocimiento a partir de contenido web
- Monitorear cambios en la estructura del sitio web
- ID de Rastreo (úsalo para recuperar resultados más tarde)
- Tipo de Objeto
- Estado
- URL de Inicio
- Máximo de Páginas
- Seguir Enlaces
- Marca de Tiempo Creada
- Formatos
Archivar Sitio de Documentación
Archivar Sitio de Documentación
- URL de Inicio: https://docs.example.com
- Máx. Páginas: 500
- Seguir Enlaces: true
- Formato: Markdown
- Enviar ID de rastreo a tu sistema de archivo
- Notificar al equipo que el rastreo está en progreso
Análisis de Contenido de la Competencia
Análisis de Contenido de la Competencia
- URL de Inicio: URL del blog de la competencia
- Máx. Páginas: 100
- Formato: Markdown
- Esperar a que el rastreo se complete
- Almacenar datos de rastreo para análisis
Crear Mapa
Obtén todas las URLs de un sitio web. Extrae todas las URLs de un sitio web para descubrimiento de contenido y análisis de estructura del sitio. Casos de Uso:- Construir mapas de sitio y diagramas de estructura del sitio
- Descubrir todas las páginas antes de raspar en lote
- Encontrar páginas rotas o faltantes
- Auditorías y análisis SEO
- ID de Mapa
- Tipo de Objeto
- URL del Sitio Web
- Total de URLs Encontradas
- URLs (array JSON)
- Consulta de Búsqueda
- Límite de Top N
Descubrir y Raspar
Descubrir y Raspar
- URL: https://example.com
- Incluir Patrones: /products/**
- Top N: 500
- Analizar URLs del resultado del mapa
- URLs: {{$json.urls}}
- Formato: JSON
- Añadir todos los datos de productos a la hoja de cálculo
Auditoría SEO del Sitio
Auditoría SEO del Sitio
- URL: Tu sitio web
- Top N: 1000
- Almacenar todas las URLs para seguimiento
- Informar el total de páginas encontradas
Ejemplos Populares de Flujos de Trabajo
Monitoreo de Precios en E-commerce
Monitorea precios de la competencia y recibe alertas instantáneas:Agregación de Contenido
Agrega contenido de múltiples fuentes:Pipeline de Enriquecimiento de Leads
Enriquece datos de leads con información web:Automatización de Investigación
Automatiza la investigación desde múltiples fuentes:Monitoreo de Redes Sociales
Rastrea menciones y contenido:Flujos de Trabajo de Múltiples Pasos
Pipeline Completo de Scraping de Productos
Construye un pipeline completo de datos de productos:Descubrir URLs de Productos
- Incluir patrones:
/products/** - Excluir patrones:
/cart/**,/checkout/**
Procesar Productos en Lote
- Formato: JSON
- Parser: Parser específico de producto si está disponible
Almacenar en Base de Datos
- Usa Airtable, Google Sheets o tu base de datos
Estrategia de Contenido SEO
Analiza competidores y planifica contenido:Mapear Sitios de la Competencia
- Extraer todas las publicaciones de blog y páginas de contenido
Raspar Contenido
- Formato: Markdown para análisis fácil
Análisis con IA
- Identificar brechas de contenido
- Encontrar temas de tendencia
Parsers Especializados
Olostep proporciona parsers preconstruidos para sitios web populares. Úsalos con el campoParser:
Producto de Amazon
@olostep/amazon-productExtrae: título, precio, calificación, reseñas, imágenes, variantesBúsqueda de Google
@olostep/google-searchExtrae: resultados de búsqueda, títulos, fragmentos, URLsGoogle Maps
@olostep/google-mapsExtrae: información de negocios, reseñas, calificaciones, ubicaciónExtraer Emails
@olostep/extract-emailsExtrae: emails de páginas, listas de contactos y pies de páginaExtraer Redes Sociales
@olostep/extract-socialsExtrae: enlaces de perfiles sociales (X/Twitter, GitHub, etc.)Extraer Calendarios
@olostep/extract-calendarsExtrae: enlaces de calendario (Google Calendar, ICS) de páginasUso de Parsers
Simplemente añade el ID del parser al campo Parser. Dos ejemplos:Integración con Aplicaciones Populares
Google Sheets
Perfecto para la recolección y seguimiento de datos:- Hojas de seguimiento de precios
- Bases de datos de enriquecimiento de leads
- Inventario de contenido
- Hojas de análisis de la competencia
Airtable
Construye bases de datos potentes con datos raspados:- Catálogos de productos
- Bases de datos de investigación
- Calendarios de contenido
- Bases de datos de enlaces
Slack
Recibe notificaciones instantáneas:- Alertas de caída de precios
- Notificaciones de actualización de contenido
- Monitoreo de errores
- Resúmenes diarios
HubSpot / Salesforce
Enriquece datos de CRM automáticamente:- Enriquecimiento de leads
- Investigación de empresas
- Inteligencia competitiva
- Mapeo de cuentas
Notion
Construye bases de conocimiento:- Espejos de documentación
- Repositorios de investigación
- Bibliotecas de contenido
- Wikis de equipo
Mejores Prácticas
Usa Procesamiento en Lote para Múltiples URLs
Usa Procesamiento en Lote para Múltiples URLs
- Mucho más rápido (procesamiento en paralelo)
- Más rentable
- Más fácil de gestionar
- Mejor para límites de tasa
Configura Tiempos de Espera Apropiados
Configura Tiempos de Espera Apropiados
- Sitios simples: 0-1000ms
- Sitios dinámicos: 2000-3000ms
- JavaScript pesado: 5000-8000ms
Usa Parsers Especializados
Usa Parsers Especializados
- Obtén datos estructurados automáticamente
- Extracción más confiable
- No necesitas parsing personalizado
- Mantenidos por Olostep
Filtra Antes de Raspar
Filtra Antes de Raspar
- Verifica si la URL ha cambiado
- Verifica que los datos no se hayan raspado recientemente
- Aplica lógica de negocio antes de raspar
Maneja Operaciones Asíncronas
Maneja Operaciones Asíncronas
- Almacena el ID devuelto (batch_id, crawl_id, map_id)
- Usa un nodo de Espera si recuperas inmediatamente
- Considera callbacks de webhook para finalización
- Configura flujos de trabajo separados para recuperación
Almacena Resultados Apropiadamente
Almacena Resultados Apropiadamente
- Google Sheets: Seguimiento simple, colaboración en equipo
- Airtable: Datos relacionales, formato enriquecido
- Base de Datos: A gran escala, consultas complejas
- Notion: Base de conocimiento, documentación
Monitorea y Alerta
Monitorea y Alerta
- Usa flujos de trabajo de Error en n8n
- Envía alertas a Slack/Email en caso de fallos
- Rastrea el uso de API en el panel de control de Olostep
- Registra métricas importantes
Casos de Uso Comunes por Industria
E-commerce
- Monitoreo de Precios: Rastrea precios de la competencia en tiempo real
- Investigación de Productos: Descubre productos de tendencia y brechas de mercado
- Seguimiento de Inventario: Monitorea la disponibilidad de stock
- Análisis de Reseñas: Agrega y analiza reseñas de clientes
Marketing & SEO
- Descubrimiento de Contenido: Encuentra oportunidades de contenido
- Análisis de la Competencia: Rastrea estrategias de la competencia
- Investigación de Backlinks: Descubre oportunidades de enlaces
- Investigación de Palabras Clave: Extrae datos de palabras clave de resultados de búsqueda
Ventas & Generación de Leads
- Enriquecimiento de Leads: Mejora datos de CRM con información web
- Investigación de Empresas: Recolecta inteligencia de empresas
- Descubrimiento de Contactos: Encuentra tomadores de decisiones
- Inteligencia Competitiva: Rastrea movimientos de la competencia
Investigación & Análisis
- Recolección de Datos: Recolecta datos de múltiples fuentes
- Investigación de Mercado: Rastrea tendencias de la industria
- Investigación Académica: Recolecta datos de investigación
- Inteligencia de Precios: Analiza estrategias de precios
Medios & Publicaciones
- Agregación de Contenido: Cura contenido de múltiples sitios
- Monitoreo de Noticias: Rastrea noticias y menciones
- Redes Sociales: Monitorea plataformas sociales
- Detección de Tendencias: Identifica temas de tendencia
Solución de Problemas
Fallo de Autenticación
Fallo de Autenticación
- Verifica la clave API desde el panel de control
- Asegúrate de que no haya espacios extra en la clave API
- Recrea la credencial en n8n
- Verifica que la clave API esté activa
Raspeo Devuelve Contenido Vacío
Raspeo Devuelve Contenido Vacío
- Aumenta el tiempo de “Esperar Antes de Raspar”
- Verifica si el sitio web requiere inicio de sesión
- Prueba con un formato diferente (HTML vs Markdown)
- Verifica que la URL sea accesible
- Verifica si el sitio bloquea el acceso automatizado
Error de Formato de Array de Lote
Error de Formato de Array de Lote
- Usa el formato:
[{"url":"https://example.com","custom_id":"id1"}] - Asegúrate de la sintaxis JSON adecuada
- Usa el nodo de Código para formatear URLs correctamente
- Prueba el JSON con un validador en línea
Límite de Tasa Excedido
Límite de Tasa Excedido
- Espacia las ejecuciones de flujo de trabajo con nodos de Espera
- Usa procesamiento en lote en lugar de raspeos individuales
- Actualiza tu plan de Olostep
- Verifica el límite de tasa en el panel de control
URL No Raspada
URL No Raspada
- Verifica el formato de la URL (incluye http:// o https://)
- Verifica si la URL requiere autenticación
- Prueba la URL en el navegador primero
- Prueba con el parámetro de país
- Contacta soporte para dominios bloqueados
Ventajas de n8n
Autoalojado
n8n es autoalojado, dándote control total sobre tus flujos de trabajo y datos. Sin bloqueo de proveedor, sin datos saliendo de tu infraestructura.Sin Límites de Tareas
A diferencia de las plataformas de automatización basadas en la nube, n8n no impone límites de tareas. Ejecuta tantos flujos de trabajo como necesites sin costos adicionales.Código Abierto
n8n es de código abierto, permitiéndote personalizar y extenderlo para adaptarse a tus necesidades específicas.Rentable
n8n autoalojado es gratuito, con alojamiento en la nube opcional disponible. Solo paga por el uso de la API de Olostep.Precios
Olostep cobra basado en el uso de la API, independiente de n8n:- Raspeos: Paga por raspeo
- Lotes: Paga por URL en lote
- Rastreos: Paga por página rastreada
- Mapas: Paga por operación de mapa