Descripción General
El endpoint scrape de Olostep permite extraer contenido de cualquier sitio web. El contenido en markdown es útil si deseas proporcionarlo a un LLM sin todo el HTML. En esta guía veremos cómo extraer markdown de un sitio web comohttps://www.nea.com/team.
Requisitos Previos
Antes de comenzar, asegúrate de tener lo siguiente:- Una clave de API válida de Olostep. Puedes obtener una registrándote en Olostep.
- Python instalado en tu sistema
- Las bibliotecas
requestsyjson(estas vienen preinstaladas con Python, pero puedes instalarlas usandopip install requestssi es necesario)
Extracción de Texto de un Sitio Web
El siguiente script de Python demuestra cómo extraer texto y contenido en markdown de un sitio web usando la API de Olostep.Respuesta de Ejemplo
Una respuesta exitosa se verá algo así:Explicación
url_to_scrape: especifica la URL del sitio web del cual extraer contenido.formats: define los formatos de salida (texto en este caso).Authorization: contiene tu clave de API para autenticar la solicitud.- La respuesta está formateada como JSON y se imprime para facilitar la lectura.