Saltar al contenido principal
POST
/
v1
/
scrapes
Iniciar un scrape de página web
curl --request POST \
  --url https://api.olostep.com/v1/scrapes \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url_to_scrape": "<string>",
  "wait_before_scraping": 123,
  "formats": [
    "html"
  ],
  "remove_css_selectors": "default",
  "actions": [
    {
      "type": "wait",
      "milliseconds": 1
    }
  ],
  "country": "<string>",
  "transformer": "postlight",
  "remove_images": false,
  "remove_class_names": [
    "<string>"
  ],
  "llm_extract": {
    "schema": {}
  },
  "links_on_page": {
    "absolute_links": true,
    "query_to_order_links_by": "<string>",
    "include_links": [
      "<string>"
    ],
    "exclude_links": [
      "<string>"
    ]
  },
  "screen_size": {
    "screen_type": "default",
    "screen_width": 123,
    "screen_height": 123
  },
  "screenshot": {
    "full_page": true
  },
  "metadata": {}
}
'
{
  "id": "<string>",
  "object": "<string>",
  "created": 123,
  "metadata": {},
  "url_to_scrape": "<string>",
  "result": {
    "html_content": "<string>",
    "markdown_content": "<string>",
    "text_content": "<string>",
    "json_content": "<string>",
    "screenshot_hosted_url": "<string>",
    "html_hosted_url": "<string>",
    "markdown_hosted_url": "<string>",
    "text_hosted_url": "<string>",
    "links_on_page": [
      "<string>"
    ],
    "page_metadata": {
      "status_code": 123,
      "title": "<string>"
    }
  }
}

Autorizaciones

Authorization
string
header
requerido

Encabezado de autenticación Bearer del formato Bearer , donde es tu token de autenticación.

Cuerpo

application/json
url_to_scrape
string<uri>
requerido

La URL desde la cual comenzar el scraping.

wait_before_scraping
integer

Tiempo de espera en milisegundos antes de comenzar el scraping.

formats
enum<string>[]

Formatos en los que quieres el contenido.

Opciones disponibles:
html,
markdown,
text,
json,
raw_pdf,
screenshot
remove_css_selectors
enum<string>

Opción para eliminar ciertos selectores CSS del contenido. Opcionalmente, también puedes pasar un array en formato JSON stringificado de selectores específicos que deseas eliminar. Los selectores CSS eliminados cuando esta opción está configurada por defecto son ['nav','footer','script','style','noscript','svg',[role=alert],[role=banner],[role=dialog],[role=alertdialog],[role=region][aria-label*=skip i],[aria-modal=true]]

Opciones disponibles:
default,
none,
array
actions
(Esperar · object | Hacer clic · object | Rellenar Entrada · object | Desplazar · object)[]

Acciones a realizar en la página antes de obtener el contenido.

country
string

País residencial desde el cual cargar la solicitud. Valores soportados son: - US (Estados Unidos) - CA (Canadá) - IT (Italia) - IN (India) - GB (Inglaterra) - JP (Japón) - MX (México) - AU (Australia) - ID (Indonesia) - UA (EAU) - RU (Rusia) - RANDOM Algunas operaciones, como scraping de Google Search y Google News, soportan todos los países.

transformer
enum<string>

Especifica el transformador HTML a usar, si hay alguno. La biblioteca Mercury Parser de Postlight se utiliza para eliminar anuncios y otros contenidos no deseados del contenido extraído.

Opciones disponibles:
postlight,
none
remove_images
boolean
predeterminado:false

Opción para eliminar imágenes del contenido scrapeado. Por defecto es false.

remove_class_names
string[]

Lista de nombres de clase a eliminar del contenido.

parser
object

Al definir json como formato, puedes usar este parámetro para especificar el parser a usar. Los parsers son útiles para extraer contenido estructurado de páginas web. Olostep tiene algunos parsers integrados para las páginas web más comunes, y también puedes crear tus propios parsers.

llm_extract
object

Con esta opción, puedes obtener todos los enlaces presentes en la página que scrapeas.

screen_size
object

Configuración para el tamaño de pantalla. Las dimensiones predefinidas están disponibles a través de screen_type: desktop (1920x1080), mobile (414x896) o default (768x1024).

screenshot
object
metadata
object

Metadatos definidos por el usuario. Aún no soportado.

Respuesta

Respuesta exitosa con los detalles de inicio del scrape.

id
string

ID del Scrape

object
string

El tipo de objeto. "scrape" para este endpoint.

created
number

Época creada

metadata
object

Metadatos definidos por el usuario.

url_to_scrape
string

La URL que fue scrapeada.

result
object