Descripción general
El endpoint scrape de Olostep permite extraer contenido de cualquier sitio web. El contenido en markdown es útil si quieres alimentarlo a un LLM sin todo el HTML. En esta guía veremos cómo extraer markdown de un sitio web comohttps://www.nea.com/team.
Requisitos previos
Antes de comenzar, asegúrate de tener lo siguiente:- Una clave API válida de Olostep. Puedes obtener una registrándote en Olostep.
- Python instalado en tu sistema
- Las bibliotecas
requestsyjson(estas vienen preinstaladas con Python, pero puedes instalarlas usandopip install requestssi es necesario)
Extrayendo Texto de un Sitio Web
El siguiente script de Python demuestra cómo extraer texto y contenido markdown de un sitio web usando la API de Olostep.Respuesta de Ejemplo
Una respuesta exitosa se verá algo así:Explicación
url_to_scrape: especifica la URL del sitio web del cual extraer contenido.formats: define los formatos de salida (texto en este caso).Authorization: contiene tu clave API para autenticar la solicitud.- La respuesta está formateada como JSON y se imprime para facilitar la lectura.