Descripción General
El endpoint Batches de Olostep te permite iniciar un lote de hasta 10,000 URLs y obtener el contenido en 5–7 minutos. Puedes iniciar hasta 10 lotes a la vez para extraer contenido de 100,000 URLs de una sola vez. Si necesitas más escala, por favor contáctanos. Esto es útil si ya tienes las URLs que deseas procesar —por ejemplo, para agregar datos para análisis, construir una herramienta de búsqueda especializada, o monitorear múltiples sitios web para detectar cambios. En esta guía, te explicaremos cómo iniciar un lote con una lista de URLs y recuperar el contenido en formato markdown.Resumen con Código Completo
Aquí está todo el código en un solo resumen que puedes copiar y pegar para probar el raspado por lotes con Olostep: https://gist.github.com/olostep/e903f2e4fc28f8093b834b4df68b8031 En este resumen hemos mostrado cómo iniciar un lote con 5 consultas de búsqueda de Google, verificar el estado y recuperar el contenido de cada elemento.Prerrequisitos
Antes de comenzar, asegúrate de tener lo siguiente:- Una clave de API válida de Olostep. Puedes obtener una registrándote en Olostep.
- Python instalado en tu sistema.
- Las bibliotecas
requestsyhashlib(instalarequestsconpip install requestssi es necesario).
Paso 1: Crear un Lote desde URLs Locales
Si ya tienes una lista de URLs que deseas procesar, puedes definirlas directamente en tu script. De lo contrario, puedes leerlas desde un archivo o base de datos.Paso 2: Monitorear el Estado del Lote
Una vez que el lote está iniciado, puedes monitorear su estado usando elbatch_id que se devuelve cuando inicias el lote.
Paso 3: Recuperar Elementos Completados
Una vez que el lote está marcado como completo, recupera los elementos procesados.retrieve_id que puedes usar para obtener el contenido raspado.
Paso 4: Recuperar el Contenido
Usa elretrieve_id para obtener el contenido extraído en markdown, html o json. Aquí tienes un ejemplo para recuperar el contenido en formato markdown:
Contenido Alojado
También alojamos el contenido durante 7 días, para que puedas recuperarlo múltiples veces sin volver a raspar. Ejemplo de una URL alojada para contenido en markdownCasos de Uso de Ejemplo
1. Construir Motores de Búsqueda
Usa Olostep para extraer contenido de sitios web específicos de la industria (legal, médico, IA) y construir una base de datos buscable.2. Monitoreo de Sitios Web
Monitorea la disponibilidad de productos, cambios de precios o actualizaciones de noticias en múltiples sitios web programando raspados por lotes diarios.3. Monitoreo de Redes Sociales
Raspa menciones de tu marca o palabras clave en foros o fuentes de contenido y extrae datos estructurados.4. Agregadores
Construye un portal de empleo, un agregador de noticias o una plataforma de listados inmobiliarios extrayendo datos de docenas de fuentes.Conclusión
Con el raspado por lotes, puedes extraer contenido de hasta 100k URLs de manera rápida y eficiente. Ya sea que estés construyendo herramientas de búsqueda, agregadores o sistemas de monitoreo, los Lotes de Olostep simplifican el trabajo. ¿Quieres extraer solo datos estructurados? Usa Parsers para obtener solo los campos que necesitas. ¿Necesitas ayuda? Comunícate coninfo@olostep.com para soporte o para que escribamos scripts personalizados para tu caso de uso.