Raspar

A través del endpoint de Olostep /v1/scrapes puedes extraer Markdown, HTML, texto, capturas de pantalla o JSON estructurado compatible con LLM desde cualquier URL en tiempo real.

Genera markdown limpio, datos estructurados, capturas de pantalla o html
Extrae JSON a través de Parsers o extracción LLM
Maneja contenido dinámico: sitios renderizados con js, flujos de inicio de sesión mediante acciones, PDFs

Para detalles de la API, consulta la Referencia de la API del Endpoint de Raspar.

Raspando una URL

Usa el endpoint /v1/scrapes para raspar una sola URL y elegir formatos de salida.

Instalación

pip install olostep

Uso

Puedes usar el endpoint para raspar una sola URL y elegir formatos de salida. Los parámetros obligatorios son url_to_scrape y formats. Algunos otros parámetros comunes son wait_before_scraping (en milisegundos), remove_css_selectors (por defecto, ninguno, o un array de selectores), y country.

from olostep import Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

result = client.scrapes.create(
    url_to_scrape="https://en.wikipedia.org/wiki/Alexander_the_Great",
    formats=["markdown", "html"],
)

print(result.markdown_content)
print(result.html_content)

Respuesta

La API devuelve un objeto scrape en respuesta. El scrape tiene algunas propiedades como id y result. El objeto result tiene los siguientes campos (según el parámetro formats algunos podrían ser nulos):

html_content: el contenido HTML de la página. Pasa formats: ["html"] para obtener esto.
markdown_content: el contenido MD de la página. Pasa formats: ["markdown"] para obtener esto.
text_content: el contenido de texto de la página. Pasa formats: ["text"] para obtener esto.
json_content: el contenido JSON de la página. Pasa formats: ["json"] para obtener esto y también proporciona un parámetro parser o llm_extract.
screenshot_hosted_url: la URL alojada de la captura de pantalla.
html_hosted_url: la URL alojada del contenido HTML
markdown_hosted_url: la URL alojada del contenido Markdown
json_hosted_url: la URL alojada del contenido JSON
text_hosted_url: la URL alojada del contenido de texto
links_on_page: los enlaces en la página
page_metadata: los metadatos de la página

{
  "id": "scrape_6h89o8u1kt",
  "object": "scrape",
  "created": 1745673871,
  "metadata": {},
  "retrieve_id": "6h89o8u1kt",
  "url_to_scrape": "https://en.wikipedia.org/wiki/Alexander_the_Great",
  "result": {
    "html_content": "<html...",
    "markdown_content": "## Alexander the Great...",
    "text_content": null,
    "json_content": null,
    "screenshot_hosted_url": null,
    "html_hosted_url": "https://olostep-storage.s3.us-east-1.amazonaws.com/text_6h89o8u1kt.txt",
    "markdown_hosted_url": "https://olostep-storage.s3.us-east-1.amazonaws.com/markDown_6h89o8u1kt.txt",
    "json_hosted_url": null,
    "text_hosted_url": null,
    "links_on_page": [],
    "page_metadata": { "status_code": 200, "title": "" }
  }
}

Formatos de Raspado

Elige uno o más formatos de salida a través de formats:

markdown: markdown compatible con LLM
html: HTML limpio
text: texto plano
json: salida estructurada (a través de parser o llm_extract)
raw_pdf: bytes de PDF sin procesar extraídos a una URL alojada
screenshot: configurado a través de acciones para capturar una captura de pantalla y devolver una URL alojada

Las claves de salida se devuelven dentro de result como campos *_content y también un *_hosted_url.

Extraer datos estructurados

Puedes extraer JSON estructurado de dos maneras: usando Parsers o extracción LLM.

Usando un Parser (recomendado para escala)

Define formats: ["json"] y proporciona un id de parser.

from olostep import Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

result = client.scrapes.create(
    url_to_scrape="https://www.google.com/search?q=alexander+the+great&gl=us&hl=en",
    formats=["json"],
    parser="@olostep/google-search",
)

print(result.json_content)

Olostep tiene algunos parsers preconstruidos para sitios web populares pero también puedes crear tus propios parsers a través del panel de control o pedir a nuestro equipo que lo haga por ti. Los parsers son auto-reparables y se actualizarán a la última versión del sitio web.

Usando extracción LLM (esquema y/o instrucción)

Proporciona llm_extract con un JSON Schema (schema) y/o una instrucción en lenguaje natural (prompt). Puedes pasar ambos parámetros, pero si se proporcionan ambos, schema tiene prioridad. En cambio, si solo pasas un prompt, el LLM extraerá los datos basándose en el prompt y decidirá la estructura de los datos por sí mismo.

from olostep import LLMExtract, Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

result = client.scrapes.create(
    url_to_scrape="https://www.berklee.edu/events/stefano-marchese-friends",
    formats=["markdown", "json"],
    llm_extract=LLMExtract(
        schema={
            "event": {
                "type": "object",
                "properties": {
                    "title": {"type": "string"},
                    "date": {"type": "string"},
                    "description": {"type": "string"},
                    "venue": {"type": "string"},
                    "address": {"type": "string"},
                    "start_time": {"type": "string"},
                },
            }
        }
    ),
)

print(result.json_content)

Nota: result.json_content devuelve un JSON en forma de cadena. Analízalo en tu código si necesitas un objeto.

Interactuando con la página con Acciones

Realiza acciones antes de raspar para interactuar con sitios dinámicos. Acciones soportadas:

wait con milliseconds
click con selector
fill_input con selector y value
scroll con direction y amount

A menudo es útil usar wait antes/después de otras acciones para permitir que la página se cargue.

Ejemplo

from olostep import FillInputAction, Olostep, WaitAction

client = Olostep(api_key="YOUR_REAL_KEY")

result = client.scrapes.create(
    url_to_scrape="https://example.com/login",
    formats=["markdown"],
    actions=[
        FillInputAction(selector="input[type=email]", value="john@example.com"),
        WaitAction(milliseconds=500),
        FillInputAction(selector="input[type=password]", value="secret"),
        {"type": "click", "selector": "button[type=\"submit\"]"},
        WaitAction(milliseconds=1500),
    ],
)

print(result.markdown_content)

La respuesta incluirá cualquier formato solicitado (por ejemplo, markdown_content).

Casos de Uso

A continuación se presentan algunas aplicaciones prácticas de clientes que utilizan el endpoint /scrapes.

Análisis de Contenido e Investigación

Análisis Competitivo: Extrae detalles de productos, precios y características de sitios web de competidores
Investigación de Mercado: Analiza páginas de destino, descripciones de productos y testimonios de clientes
Investigación Académica: Recopila datos específicos de publicaciones científicas o portales de investigación
Documentación Legal: Extrae estudios de casos, regulaciones o precedentes legales de sitios web oficiales

Comercio Electrónico y Retail

Estrategias de Precios Dinámicos: Obtén precios de productos en tiempo real de tiendas competidoras
Gestión de Información de Productos: Extrae especificaciones detalladas y descripciones
Monitoreo de Stock/Inventario: Verifica la disponibilidad de productos en otros minoristas
Análisis de Reseñas: Recopila comentarios de consumidores y sentimientos para productos específicos

Marketing y Creación de Contenidos

Curación de Contenidos: Extrae artículos relevantes y publicaciones de blogs para boletines
Análisis SEO: Examina el uso de palabras clave, descripciones meta y estructura de página de competidores
Generación de Leads: Extrae información de contacto de directorios de empresas o páginas de compañías
Investigación de Influencers: Recopila métricas de compromiso y estilos de contenido de perfiles de influencers
Generación Personalizada de Redes Sociales: Crea marketing en redes sociales impulsado por IA analizando sitios web de clientes

Aplicaciones de Datos

Recolección de Datos de Entrenamiento para IA: Recopila ejemplos específicos para modelos de aprendizaje automático
Construcción de Base de Conocimiento Personalizada: Extrae documentación o instrucciones de sitios de software
Archivos de Datos Históricos: Preserva el contenido del sitio web en puntos específicos en el tiempo
Extracción de Datos Estructurados: Transforma contenido web en conjuntos de datos formateados para análisis

Monitoreo y Alertas

Monitoreo de Cumplimiento Regulatorio: Rastrea cambios en sitios web legales o regulatorios
Gestión de Crisis: Monitorea sitios de noticias para menciones de eventos o organizaciones específicas
Seguimiento de Eventos: Extrae detalles sobre eventos próximos de sitios de lugares u organizadores
Monitoreo de Estado de Servicios: Verifica páginas de estado de servicios para plataformas o herramientas específicas

Publicación y Medios

Agregación de Noticias: Extrae noticias de última hora de fuentes oficiales
Monitoreo de Medios: Rastrea temas específicos en sitios de noticias
Verificación de Contenidos: Extrae información para verificar hechos o declaraciones
Extracción Multimedia: Recopila videos, imágenes o audio incrustados para bibliotecas de medios

Aplicaciones Financieras

Investigación de Inversiones: Extrae estados financieros o informes anuales de sitios web de empresas
Indicadores Económicos: Recopila datos económicos de sitios web gubernamentales o de instituciones financieras
Datos de Criptomonedas: Extrae información de precios en tiempo real y capitalización de mercado
Análisis de Noticias Financieras: Monitorea sitios de noticias financieras para señales de mercado específicas

Aplicaciones Técnicas

Extracción de Documentación de API: Recopila documentación técnica para referencia
Pruebas de Integración: Extrae elementos del sitio web para verificar integraciones de terceros
Pruebas de Accesibilidad: Analiza la estructura del sitio web para el cumplimiento de estándares de accesibilidad
Creación de Archivos Web: Captura el contenido completo del sitio web para preservación histórica

Escenarios de Integración

Sistemas CRM: Mejora los perfiles de clientes con datos de sitios web de empresas o Linkedin
Sistemas de Gestión de Contenidos: Importa contenido externo relevante
Herramientas de Inteligencia de Negocios: Complementa datos internos con información de mercado externa
Software de Gestión de Proyectos: Extrae especificaciones o requisitos de sitios web de clientes
Paneles Personalizados: Muestra datos extraídos junto a métricas internas

Manejo de Errores

Todos los errores siguen una forma de sobre envoltura compartida. Verifica error.type y error.code para ramificar programáticamente:

{
  "id": "error_abc123",
  "object": "error",
  "created": 1745673871,
  "url": "https://example.com",
  "metadata": {},
  "error": {
    "type": "...",
    "code": "...",
    "message": "..."
  }
}

HTTP	`error.type`	`error.code`	Significado
400	`invalid_request_error`	`dns_resolution_failed`	El dominio no existe o la URL tiene un error tipográfico.
400	`invalid_request_error`	`invalid_url`	La URL está mal formada.
502	`invalid_request_error`	`tls_error`	El sitio web tiene un certificado TLS/SSL inválido o incompatible. `error.detail` lleva el código SSL de bajo nivel.
504	`request_timeout`	`scrape_poll_timeout`	El raspado no se completó dentro del presupuesto de espera de ~55 segundos.

Fallo de DNS (400)

El dominio no se resuelve. Verifica la URL por errores tipográficos.

{
  "error": {
    "type": "invalid_request_error",
    "code": "dns_resolution_failed",
    "message": "La URL contiene un error tipográfico, o el dominio no existe."
  }
}

Error TLS/SSL (502)

El sitio web objetivo tiene una configuración HTTPS rota o incompatible. error.detail proporciona el código de error SSL específico para diagnósticos; error.code siempre es tls_error.

{
  "error": {
    "type": "invalid_request_error",
    "code": "tls_error",
    "detail": "err_ssl_tlsv1_alert_internal_error",
    "message": "El sitio web cerró o rechazó el handshake TLS. El servidor puede estar mal configurado o usar una versión SSL/TLS no compatible."
  }
}

Tiempo de espera de la solicitud (504)

El raspado no se completó dentro del presupuesto de espera. La página puede ser lenta, estar protegida contra bots o estar temporalmente no disponible. Esta respuesta es segura para reintentar.

{
  "error": {
    "type": "request_timeout",
    "code": "scrape_poll_timeout",
    "message": "La solicitud expiró mientras se esperaba el resultado del raspado. La página puede ser lenta, estar bloqueada para nuestros fetchers, o estar temporalmente no disponible."
  }
}

Precios

Raspar cuesta 1 crédito por defecto. Si también pasas parsers, los costos varían según el parser (1-5 créditos). Si usas LLM extract, cuesta 20 créditos.

Comenzar

Características

Integraciones

Raspando una URL

Instalación

Uso

Respuesta

Formatos de Raspado

Extraer datos estructurados

Usando un Parser (recomendado para escala)

Usando extracción LLM (esquema y/o instrucción)

Interactuando con la página con Acciones

Ejemplo

Casos de Uso

Análisis de Contenido e Investigación

Comercio Electrónico y Retail

Marketing y Creación de Contenidos

Aplicaciones de Datos

Monitoreo y Alertas

Publicación y Medios

Aplicaciones Financieras

Aplicaciones Técnicas

Escenarios de Integración

Manejo de Errores

Fallo de DNS (400)

Error TLS/SSL (502)

Tiempo de espera de la solicitud (504)

Precios

Comenzar

Características

Integraciones

Documentation Index

​Raspando una URL

​Instalación

​Uso

​Respuesta

​Formatos de Raspado

​Extraer datos estructurados

​Usando un Parser (recomendado para escala)

​Usando extracción LLM (esquema y/o instrucción)

​Interactuando con la página con Acciones

​Ejemplo

​Casos de Uso

​Análisis de Contenido e Investigación

​Comercio Electrónico y Retail

​Marketing y Creación de Contenidos

​Aplicaciones de Datos

​Monitoreo y Alertas

​Publicación y Medios

​Aplicaciones Financieras

​Aplicaciones Técnicas

​Escenarios de Integración

​Manejo de Errores

​Fallo de DNS (400)

​Error TLS/SSL (502)

​Tiempo de espera de la solicitud (504)

​Precios

Raspando una URL

Instalación

Uso

Respuesta

Formatos de Raspado

Extraer datos estructurados

Usando un Parser (recomendado para escala)

Usando extracción LLM (esquema y/o instrucción)

Interactuando con la página con Acciones

Ejemplo

Casos de Uso

Análisis de Contenido e Investigación

Comercio Electrónico y Retail

Marketing y Creación de Contenidos

Aplicaciones de Datos

Monitoreo y Alertas

Publicación y Medios

Aplicaciones Financieras

Aplicaciones Técnicas

Escenarios de Integración

Manejo de Errores

Fallo de DNS (400)

Error TLS/SSL (502)

Tiempo de espera de la solicitud (504)

Precios