Crear Scrape
Scrape una URL con la configuración proporcionada y obtén contenido.
Autorizaciones
Encabezado de autenticación Bearer de la forma Bearer , donde es tu token de autenticación.
Cuerpo
La URL desde la cual comenzar el scraping.
Tiempo de espera en milisegundos antes de comenzar el scrapeo.
Formatos en los que quieres el contenido.
html, markdown, text, json, raw_pdf, screenshot Opción para eliminar ciertos selectores CSS del contenido. Opcionalmente, también puedes pasar un array en formato JSON stringificado de selectores específicos que deseas eliminar. Los selectores CSS eliminados cuando esta opción está configurada por defecto son ['nav','footer','script','style','noscript','svg',[role=alert],[role=banner],[role=dialog],[role=alertdialog],[role=region][aria-label*=skip i],[aria-modal=true]]
default, none, array Acciones a realizar en la página antes de obtener el contenido.
- Esperar
- Hacer clic
- Rellenar Entrada
- Desplazar
País residencial desde el cual cargar la solicitud. Valores soportados son: - US (Estados Unidos) - CA (Canadá) - IT (Italia) - IN (India) - GB (Inglaterra) - JP (Japón) - MX (México) - AU (Australia) - ID (Indonesia) - UA (EAU) - RU (Rusia) - RANDOM Algunas operaciones, como el scrapeo de Google Search y Google News, soportan todos los países.
Especifica el transformador HTML a usar, si hay alguno. La biblioteca Mercury Parser de Postlight se utiliza para eliminar anuncios y otros contenidos no deseados del contenido extraído.
postlight, none Opción para eliminar imágenes del contenido scrapeado. Por defecto es false.
Lista de nombres de clase a eliminar del contenido.
Al definir json como formato, puedes usar este parámetro para especificar el parser a usar. Los parsers son útiles para extraer contenido estructurado de páginas web. Olostep tiene algunos parsers integrados para las páginas web más comunes, y también puedes crear tus propios parsers.
Con esta opción, puedes obtener todos los enlaces presentes en la página que scrapeas. Los enlaces siempre se devuelven como URLs absolutas.
Configuración para el tamaño de pantalla. Las dimensiones predefinidas están disponibles a través de screen_type: desktop (1920x1080), mobile (414x896) o default (768x1024).
Metadatos definidos por el usuario. Aún no soportado.
Respuesta
Respuesta exitosa con los detalles de inicio del scrape.
Scrape ID
El tipo de objeto. "scrape" para este endpoint.
Época creada
Metadatos definidos por el usuario.
La URL que fue scrapeada.
Número de créditos consumidos por esta solicitud. Se completa después de que la ejecución finaliza. Los créditos son la fuente de verdad para la facturación.
Costo estimado en USD para esta solicitud. Se completa después de que la ejecución finaliza. Calculado a partir de los créditos consumidos y tu tarifa de plan — 99% preciso, pero credits_consumed es el valor autoritativo.