A través del endpoint de OlostepDocumentation Index
Fetch the complete documentation index at: https://docs.olostep.com/llms.txt
Use this file to discover all available pages before exploring further.
/v1/scrapes puedes extraer Markdown, HTML, texto, capturas de pantalla o JSON estructurado compatible con LLM desde cualquier URL en tiempo real.
- Genera markdown limpio, datos estructurados, capturas de pantalla o html
- Extrae JSON a través de Parsers o extracción LLM
- Maneja contenido dinámico: sitios renderizados con js, flujos de inicio de sesión mediante acciones, PDFs
Raspando una URL
Usa el endpoint/v1/scrapes para raspar una sola URL y elegir formatos de salida.
Instalación
Uso
Puedes usar el endpoint para raspar una sola URL y elegir formatos de salida. Los parámetros obligatorios sonurl_to_scrape y formats.
Algunos otros parámetros comunes son wait_before_scraping (en milisegundos), remove_css_selectors (por defecto, ninguno, o un array de selectores), y country.
Respuesta
La API devuelve un objetoscrape en respuesta.
El scrape tiene algunas propiedades como id y result.
El objeto result tiene los siguientes campos (según el parámetro formats algunos podrían ser nulos):
html_content: el contenido HTML de la página. Pasaformats: ["html"]para obtener esto.markdown_content: el contenido MD de la página. Pasaformats: ["markdown"]para obtener esto.text_content: el contenido de texto de la página. Pasaformats: ["text"]para obtener esto.json_content: el contenido JSON de la página. Pasaformats: ["json"]para obtener esto y también proporciona un parámetroparserollm_extract.screenshot_hosted_url: la URL alojada de la captura de pantalla.html_hosted_url: la URL alojada del contenido HTMLmarkdown_hosted_url: la URL alojada del contenido Markdownjson_hosted_url: la URL alojada del contenido JSONtext_hosted_url: la URL alojada del contenido de textolinks_on_page: los enlaces en la páginapage_metadata: los metadatos de la página
Formatos de Raspado
Elige uno o más formatos de salida a través deformats:
markdown: markdown compatible con LLMhtml: HTML limpiotext: texto planojson: salida estructurada (a través de parser o llm_extract)raw_pdf: bytes de PDF sin procesar extraídos a una URL alojadascreenshot: configurado a través de acciones para capturar una captura de pantalla y devolver una URL alojada
result como campos *_content y también un *_hosted_url.
Extraer datos estructurados
Puedes extraer JSON estructurado de dos maneras: usando Parsers o extracción LLM.Usando un Parser (recomendado para escala)
Defineformats: ["json"] y proporciona un id de parser.
Usando extracción LLM (esquema y/o instrucción)
Proporcionallm_extract con un JSON Schema (schema) y/o una instrucción en lenguaje natural (prompt). Puedes pasar ambos parámetros, pero si se proporcionan ambos, schema tiene prioridad.
En cambio, si solo pasas un prompt, el LLM extraerá los datos basándose en el prompt y decidirá la estructura de los datos por sí mismo.
result.json_content devuelve un JSON en forma de cadena. Analízalo en tu código si necesitas un objeto.
Interactuando con la página con Acciones
Realiza acciones antes de raspar para interactuar con sitios dinámicos. Acciones soportadas:waitconmillisecondsclickconselectorfill_inputconselectoryvaluescrollcondirectionyamount
wait antes/después de otras acciones para permitir que la página se cargue.
Ejemplo
markdown_content).
Casos de Uso
A continuación se presentan algunas aplicaciones prácticas de clientes que utilizan el endpoint/scrapes.
Análisis de Contenido e Investigación
- Análisis Competitivo: Extrae detalles de productos, precios y características de sitios web de competidores
- Investigación de Mercado: Analiza páginas de destino, descripciones de productos y testimonios de clientes
- Investigación Académica: Recopila datos específicos de publicaciones científicas o portales de investigación
- Documentación Legal: Extrae estudios de casos, regulaciones o precedentes legales de sitios web oficiales
Comercio Electrónico y Retail
- Estrategias de Precios Dinámicos: Obtén precios de productos en tiempo real de tiendas competidoras
- Gestión de Información de Productos: Extrae especificaciones detalladas y descripciones
- Monitoreo de Stock/Inventario: Verifica la disponibilidad de productos en otros minoristas
- Análisis de Reseñas: Recopila comentarios de consumidores y sentimientos para productos específicos
Marketing y Creación de Contenidos
- Curación de Contenidos: Extrae artículos relevantes y publicaciones de blogs para boletines
- Análisis SEO: Examina el uso de palabras clave, descripciones meta y estructura de página de competidores
- Generación de Leads: Extrae información de contacto de directorios de empresas o páginas de compañías
- Investigación de Influencers: Recopila métricas de compromiso y estilos de contenido de perfiles de influencers
- Generación Personalizada de Redes Sociales: Crea marketing en redes sociales impulsado por IA analizando sitios web de clientes
Aplicaciones de Datos
- Recolección de Datos de Entrenamiento para IA: Recopila ejemplos específicos para modelos de aprendizaje automático
- Construcción de Base de Conocimiento Personalizada: Extrae documentación o instrucciones de sitios de software
- Archivos de Datos Históricos: Preserva el contenido del sitio web en puntos específicos en el tiempo
- Extracción de Datos Estructurados: Transforma contenido web en conjuntos de datos formateados para análisis
Monitoreo y Alertas
- Monitoreo de Cumplimiento Regulatorio: Rastrea cambios en sitios web legales o regulatorios
- Gestión de Crisis: Monitorea sitios de noticias para menciones de eventos o organizaciones específicas
- Seguimiento de Eventos: Extrae detalles sobre eventos próximos de sitios de lugares u organizadores
- Monitoreo de Estado de Servicios: Verifica páginas de estado de servicios para plataformas o herramientas específicas
Publicación y Medios
- Agregación de Noticias: Extrae noticias de última hora de fuentes oficiales
- Monitoreo de Medios: Rastrea temas específicos en sitios de noticias
- Verificación de Contenidos: Extrae información para verificar hechos o declaraciones
- Extracción Multimedia: Recopila videos, imágenes o audio incrustados para bibliotecas de medios
Aplicaciones Financieras
- Investigación de Inversiones: Extrae estados financieros o informes anuales de sitios web de empresas
- Indicadores Económicos: Recopila datos económicos de sitios web gubernamentales o de instituciones financieras
- Datos de Criptomonedas: Extrae información de precios en tiempo real y capitalización de mercado
- Análisis de Noticias Financieras: Monitorea sitios de noticias financieras para señales de mercado específicas
Aplicaciones Técnicas
- Extracción de Documentación de API: Recopila documentación técnica para referencia
- Pruebas de Integración: Extrae elementos del sitio web para verificar integraciones de terceros
- Pruebas de Accesibilidad: Analiza la estructura del sitio web para el cumplimiento de estándares de accesibilidad
- Creación de Archivos Web: Captura el contenido completo del sitio web para preservación histórica
Escenarios de Integración
- Sistemas CRM: Mejora los perfiles de clientes con datos de sitios web de empresas o Linkedin
- Sistemas de Gestión de Contenidos: Importa contenido externo relevante
- Herramientas de Inteligencia de Negocios: Complementa datos internos con información de mercado externa
- Software de Gestión de Proyectos: Extrae especificaciones o requisitos de sitios web de clientes
- Paneles Personalizados: Muestra datos extraídos junto a métricas internas
Manejo de Errores
Todos los errores siguen una forma de sobre envoltura compartida. Verificaerror.type y error.code para ramificar programáticamente:
| HTTP | error.type | error.code | Significado |
|---|---|---|---|
| 400 | invalid_request_error | dns_resolution_failed | El dominio no existe o la URL tiene un error tipográfico. |
| 400 | invalid_request_error | invalid_url | La URL está mal formada. |
| 502 | invalid_request_error | tls_error | El sitio web tiene un certificado TLS/SSL inválido o incompatible. error.detail lleva el código SSL de bajo nivel. |
| 504 | request_timeout | scrape_poll_timeout | El raspado no se completó dentro del presupuesto de espera de ~55 segundos. |
Fallo de DNS (400)
El dominio no se resuelve. Verifica la URL por errores tipográficos.Error TLS/SSL (502)
El sitio web objetivo tiene una configuración HTTPS rota o incompatible.error.detail proporciona el código de error SSL específico para diagnósticos; error.code siempre es tls_error.