Naar hoofdinhoud gaan
POST
/
v1
/
scrapes
Start een webpagina scrape
curl --request POST \
  --url https://api.olostep.com/v1/scrapes \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url_to_scrape": "<string>",
  "wait_before_scraping": 123,
  "formats": [
    "html"
  ],
  "remove_css_selectors": "default",
  "actions": [
    {
      "type": "wait",
      "milliseconds": 1
    }
  ],
  "country": "<string>",
  "transformer": "postlight",
  "remove_images": false,
  "remove_class_names": [
    "<string>"
  ],
  "llm_extract": {
    "schema": {}
  },
  "links_on_page": {
    "absolute_links": true,
    "query_to_order_links_by": "<string>",
    "include_links": [
      "<string>"
    ],
    "exclude_links": [
      "<string>"
    ]
  },
  "screen_size": {
    "screen_type": "default",
    "screen_width": 123,
    "screen_height": 123
  },
  "screenshot": {
    "full_page": true
  },
  "metadata": {}
}
'
{
  "id": "<string>",
  "object": "<string>",
  "created": 123,
  "metadata": {},
  "url_to_scrape": "<string>",
  "result": {
    "html_content": "<string>",
    "markdown_content": "<string>",
    "text_content": "<string>",
    "json_content": "<string>",
    "screenshot_hosted_url": "<string>",
    "html_hosted_url": "<string>",
    "markdown_hosted_url": "<string>",
    "text_hosted_url": "<string>",
    "links_on_page": [
      "<string>"
    ],
    "page_metadata": {
      "status_code": 123,
      "title": "<string>"
    }
  }
}

Autorisaties

Authorization
string
header
vereist

Bearer authenticatie header in de vorm Bearer , waarbij jouw auth token is.

Body

application/json
url_to_scrape
string<uri>
vereist

De URL om het scrapen te starten.

wait_before_scraping
integer

Tijd om te wachten in milliseconden voordat de scraping begint.

formats
enum<string>[]

Formaten waarin je de inhoud wilt.

Beschikbare opties:
html,
markdown,
text,
json,
raw_pdf,
screenshot
remove_css_selectors
enum<string>

Optie om bepaalde CSS-selectors uit de inhoud te verwijderen. Optioneel kun je ook een JSON-stringified array van specifieke selectors doorgeven die je wilt verwijderen. De CSS-selectors die worden verwijderd wanneer deze optie is ingesteld op standaard zijn ['nav','footer','script','style','noscript','svg',[role=alert],[role=banner],[role=dialog],[role=alertdialog],[role=region][aria-label*=skip i],[aria-modal=true]]

Beschikbare opties:
default,
none,
array
actions
(Wachten · object | Klik · object | Vul Invoer In · object | Scroll · object)[]

Acties om uit te voeren op de pagina voordat de inhoud wordt verkregen.

country
string

Woonland van waaruit het verzoek moet worden geladen. Ondersteunde waarden zijn: - US (Verenigde Staten) - CA (Canada) - IT (Italië) - IN (India) - GB (Engeland) - JP (Japan) - MX (Mexico) - AU (Australië) - ID (Indonesië) - UA (VAE) - RU (Rusland) - RANDOM Sommige operaties, zoals het scrapen van Google Search en Google News, ondersteunen alle landen.

transformer
enum<string>

Specificeer de HTML-transformer die je wilt gebruiken, indien van toepassing. Postlight's Mercury Parser-bibliotheek wordt gebruikt om advertenties en andere ongewenste inhoud uit de gescrapete inhoud te verwijderen.

Beschikbare opties:
postlight,
none
remove_images
boolean
standaard:false

Optie om afbeeldingen uit de gescrapete inhoud te verwijderen. Standaard is false.

remove_class_names
string[]

Lijst van class-namen om uit de inhoud te verwijderen.

parser
object

Wanneer je json als formaat definieert, kun je deze parameter gebruiken om de parser te specificeren die je wilt gebruiken. Parsers zijn nuttig om gestructureerde inhoud uit webpagina's te halen. Olostep heeft een paar ingebouwde parsers voor de meest voorkomende webpagina's, en je kunt ook je eigen parsers maken.

llm_extract
object

Met deze optie kun je alle links krijgen die aanwezig zijn op de pagina die je scrapt.

screen_size
object

Configuratie voor schermgrootte. Vooraf ingestelde afmetingen zijn beschikbaar via screen_type: desktop (1920x1080), mobile (414x896), of default (768x1024).

screenshot
object
metadata
object

Door de gebruiker gedefinieerde metadata. Nog niet ondersteund.

Respons

Succesvolle respons met de details van de scrape-initiatief.

id
string

Scrape ID

object
string

Het soort object. "scrape" voor dit endpoint.

created
number

Gemaakt epoch

metadata
object

Door de gebruiker gedefinieerde metadata.

url_to_scrape
string

De URL die is gescraped.

result
object