Características
La integración proporciona acceso a las 5 capacidades de la API de Olostep:Scrapes
Extrae contenido de cualquier URL única en múltiples formatos (Markdown, HTML, JSON, texto)
Batches
Procesa hasta 10,000 URLs en paralelo. Los trabajos por lotes se completan en 5-8 minutos
Answers
Búsqueda web impulsada por IA con consultas en lenguaje natural y salida estructurada
Maps
Extrae todas las URLs de un sitio web para análisis de estructura del sitio
Crawls
Descubre y extrae automáticamente sitios web completos siguiendo enlaces
Instalación
Configuración
Configura tu clave de API de Olostep como una variable de entorno:Herramientas Disponibles
scrape_website
Extrae contenido de una sola URL. Soporta múltiples formatos y renderizado de JavaScript.URL del sitio web a extraer (debe incluir http:// o https://)
Formato de salida:
markdown, html, json, o textCódigo de país para contenido específico de ubicación (ej., “US”, “GB”, “CA”)
Tiempo de espera en milisegundos para el renderizado de JavaScript (0-10000)
ID de parser opcional para extracción especializada (ej., “@olostep/amazon-product”)
scrape_batch
Procesa múltiples URLs en paralelo (hasta 10,000 a la vez).Lista de URLs a extraer
Formato de salida para todas las URLs:
markdown, html, json, o textCódigo de país para contenido específico de ubicación
Tiempo de espera en milisegundos para el renderizado de JavaScript
ID de parser opcional para extracción especializada
answer_question
Busca en la web y obtén respuestas impulsadas por IA con fuentes. Perfecto para enriquecimiento de datos e investigación.Pregunta o tarea a buscar
Diccionario/cadena de esquema JSON opcional que describe el formato de salida deseado
extract_urls
Extrae todas las URLs de un sitio web para análisis de estructura del sitio.URL del sitio web para extraer URLs
Consulta de búsqueda opcional para filtrar URLs
Limitar el número de URLs devueltas
Patrones glob para incluir (ej., [“/blog/**”])
Patrones glob para excluir (ej., [“/admin/**”])
crawl_website
Descubre y extrae automáticamente sitios web completos siguiendo enlaces.URL de inicio para el rastreo
Número máximo de páginas a rastrear
Patrones glob para incluir (ej., [”/**”] para todos)
Patrones glob para excluir (ej., [“/admin/**”])
Profundidad máxima para rastrear desde start_url
Incluir URLs externas
Integración de Agente LangChain
Construye agentes inteligentes que pueden buscar y extraer de la web:Integración de LangGraph
Construye flujos de trabajo complejos de múltiples pasos con LangGraph:Casos de Uso Avanzados
Enriquecimiento de Datos
Enriquece datos de hojas de cálculo con información web:Extracción de Productos de E-commerce
Extrae datos de productos con parsers especializados:Auditoría SEO
Analiza sitios web completos para SEO:Extracción de Documentación
Rastrea y extrae documentación:Parsers Especializados
Olostep proporciona parsers preconstruidos para sitios web populares:@olostep/google-search- Resultados de búsqueda de Google
parser:
Manejo de Errores
Mejores Prácticas
Usa Procesamiento por Lotes para Múltiples URLs
Usa Procesamiento por Lotes para Múltiples URLs
Cuando extraigas más de 3-5 URLs, usa
scrape_batch en lugar de múltiples llamadas a scrape_website. El procesamiento por lotes es mucho más rápido y rentable.Configura Tiempos de Espera Apropiados
Configura Tiempos de Espera Apropiados
Para sitios con mucho JavaScript, usa el parámetro
wait_before_scraping (2000-5000ms es típico). Esto asegura que el contenido dinámico esté completamente cargado.Usa Parsers Especializados
Usa Parsers Especializados
Para sitios web populares (Amazon, LinkedIn, Google), usa nuestros parsers preconstruidos para obtener datos estructurados automáticamente.
Filtra URLs Eficientemente
Filtra URLs Eficientemente
Al usar
extract_urls o crawl_website, usa patrones glob para enfocarte en páginas relevantes y evitar procesamiento innecesario.Maneja Límites de Tasa
Maneja Límites de Tasa
Implementa retroceso exponencial para errores de límite de tasa. La API maneja automáticamente la mayoría de los límites de tasa internamente.
Soporte
- Paquete PyPI: langchain-olostep
- Documentación: docs.olostep.com
- Problemas: GitHub Issues
- Correo Electrónico: info@olostep.com
Recursos Relacionados
Scrapes API
Aprende sobre el endpoint de Scrapes
Batches API
Aprende sobre el endpoint de Batches
Answers API
Aprende sobre el endpoint de Answers
Maps API
Aprende sobre el endpoint de Maps
Crawls API
Aprende sobre el endpoint de Crawls
Python SDK
Explora el SDK de Python
LangChain Website
Plataforma LangChain