Naar hoofdinhoud gaan
POST
/
v1
/
scrapes
Start een webpagina scrape
curl --request POST \
  --url https://api.olostep.com/v1/scrapes \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url_to_scrape": "<string>",
  "wait_before_scraping": 123,
  "formats": [],
  "actions": [
    {
      "type": "wait",
      "milliseconds": 1
    }
  ],
  "country": "<string>",
  "remove_images": false,
  "remove_class_names": [
    "<string>"
  ],
  "llm_extract": {
    "schema": {}
  },
  "links_on_page": {
    "query_to_order_links_by": "<string>",
    "include_links": [
      "<string>"
    ],
    "exclude_links": [
      "<string>"
    ]
  },
  "screen_size": {
    "screen_width": 123,
    "screen_height": 123
  },
  "screenshot": {
    "full_page": true
  },
  "metadata": {}
}
'
{
  "id": "<string>",
  "object": "<string>",
  "created": 123,
  "metadata": {},
  "url_to_scrape": "<string>",
  "result": {
    "html_content": "<string>",
    "markdown_content": "<string>",
    "text_content": "<string>",
    "json_content": "<string>",
    "screenshot_hosted_url": "<string>",
    "html_hosted_url": "<string>",
    "markdown_hosted_url": "<string>",
    "text_hosted_url": "<string>",
    "links_on_page": [
      "<string>"
    ],
    "page_metadata": {
      "status_code": 123,
      "title": "<string>"
    }
  },
  "credits_consumed": 123,
  "cost_usd": 123
}

Autorisaties

Authorization
string
header
vereist

Bearer authenticatie header in de vorm Bearer , waar jouw auth token is.

Body

application/json
url_to_scrape
string<uri>
vereist

De URL om te beginnen met scrapen.

wait_before_scraping
integer

Tijd om te wachten in milliseconden voordat de scraping begint.

formats
enum<string>[]

Formaten waarin je de inhoud wilt.

Beschikbare opties:
html,
markdown,
text,
json,
raw_pdf,
screenshot
remove_css_selectors
enum<string>

Optie om bepaalde CSS-selectors uit de inhoud te verwijderen. Optioneel kun je ook een JSON-stringified array van specifieke selectors doorgeven die je wilt verwijderen. De CSS-selectors die worden verwijderd wanneer deze optie is ingesteld op standaard zijn ['nav','footer','script','style','noscript','svg',[role=alert],[role=banner],[role=dialog],[role=alertdialog],[role=region][aria-label*=skip i],[aria-modal=true]]

Beschikbare opties:
default,
none,
array
actions
(Wachten · object | Klik · object | Vul Invoer In · object | Scrollen · object)[]

Acties om uit te voeren op de pagina voordat de inhoud wordt verkregen.

country
string

Woonland van waaruit het verzoek wordt geladen. Ondersteunde waarden zijn: - US (Verenigde Staten) - CA (Canada) - IT (Italië) - IN (India) - GB (Engeland) - JP (Japan) - MX (Mexico) - AU (Australië) - ID (Indonesië) - UA (VAE) - RU (Rusland) - RANDOM Sommige operaties, zoals het scrapen van Google Search en Google News, ondersteunen alle landen.

transformer
enum<string>

Specificeer de HTML-transformator die je wilt gebruiken, indien van toepassing. Postlight's Mercury Parser-bibliotheek wordt gebruikt om advertenties en andere ongewenste inhoud uit de gescrapete inhoud te verwijderen.

Beschikbare opties:
postlight,
none
remove_images
boolean
standaard:false

Optie om afbeeldingen uit de gescrapete inhoud te verwijderen. Standaard is false.

remove_class_names
string[]

Lijst van class-namen om uit de inhoud te verwijderen.

parser
object

Wanneer je json als formaat definieert, kun je deze parameter gebruiken om de parser te specificeren die je wilt gebruiken. Parsers zijn nuttig om gestructureerde inhoud uit webpagina's te halen. Olostep heeft een paar ingebouwde parsers voor de meest voorkomende webpagina's, en je kunt ook je eigen parsers maken.

llm_extract
object

Met deze optie kun je alle links krijgen die aanwezig zijn op de pagina die je scrapt. Links worden altijd geretourneerd als absolute URL's.

screen_size
object

Configuratie voor schermgrootte. Vooraf ingestelde afmetingen zijn beschikbaar via screen_type: desktop (1920x1080), mobile (414x896), of default (768x1024).

screenshot
object
metadata
object

Door de gebruiker gedefinieerde metadata. Nog niet ondersteund.

Respons

Succesvolle respons met de details van de scrape-initiatief.

id
string

Scrape ID

object
string

Het soort object. "scrape" voor dit endpoint.

created
number

Aangemaakte epoch

metadata
object

Door de gebruiker gedefinieerde metadata.

url_to_scrape
string

De URL die is gescraped.

result
object
credits_consumed
integer | null

Aantal credits verbruikt door dit verzoek. Wordt ingevuld nadat de uitvoering voltooid is. Credits zijn de bron van waarheid voor facturering.

cost_usd
number | null

Geschatte kosten in USD voor dit verzoek. Wordt ingevuld nadat de uitvoering voltooid is. Berekend op basis van verbruikte credits en je abonnementsprijs — 99% nauwkeurig, maar credits_consumed is de gezaghebbende waarde.