Naar hoofdinhoud gaan
POST
/
v1
/
scrapes
Eine Webseitenscraping starten
curl --request POST \
  --url https://api.olostep.com/v1/scrapes \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url_to_scrape": "<string>",
  "wait_before_scraping": 123,
  "formats": [
    "html"
  ],
  "remove_css_selectors": "default",
  "actions": [
    {
      "type": "wait",
      "milliseconds": 1
    }
  ],
  "country": "<string>",
  "transformer": "postlight",
  "remove_images": false,
  "remove_class_names": [
    "<string>"
  ],
  "parser": {
    "id": "<string>"
  },
  "llm_extract": {
    "schema": {}
  },
  "links_on_page": {
    "absolute_links": true,
    "query_to_order_links_by": "<string>",
    "include_links": [
      "<string>"
    ],
    "exclude_links": [
      "<string>"
    ]
  },
  "screen_size": {
    "screen_type": "default",
    "screen_width": 123,
    "screen_height": 123
  },
  "screenshot": {
    "full_page": true
  },
  "metadata": {}
}
'
{
  "id": "<string>",
  "object": "<string>",
  "created": 123,
  "metadata": {},
  "url_to_scrape": "<string>",
  "result": {
    "html_content": "<string>",
    "markdown_content": "<string>",
    "text_content": "<string>",
    "json_content": "<string>",
    "screenshot_hosted_url": "<string>",
    "html_hosted_url": "<string>",
    "markdown_hosted_url": "<string>",
    "text_hosted_url": "<string>",
    "links_on_page": [
      "<string>"
    ],
    "page_metadata": {
      "status_code": 123,
      "title": "<string>"
    }
  }
}

Autorisaties

Authorization
string
header
vereist

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

Body

application/json
url_to_scrape
string<uri>
vereist

Die URL, von der aus das Scraping gestartet werden soll.

wait_before_scraping
integer

Zeit in Millisekunden, die gewartet werden soll, bevor das Scraping beginnt.

formats
enum<string>[]

Formate, in denen Sie den Inhalt wünschen.

Beschikbare opties:
html,
markdown,
text,
json,
raw_pdf,
screenshot
remove_css_selectors
enum<string>

Option, bestimmte CSS-Selektoren aus dem Inhalt zu entfernen. Optional können Sie auch ein JSON-stringifiziertes Array spezifischer Selektoren übergeben, die Sie entfernen möchten. Die CSS-Selektoren, die entfernt werden, wenn diese Option auf Standard gesetzt ist, sind ['nav','footer','script','style','noscript','svg',[role=alert],[role=banner],[role=dialog],[role=alertdialog],[role=region][aria-label*=skip i],[aria-modal=true]]

Beschikbare opties:
default,
none,
array
actions
(Warten · object | Klicken · object | Eingabe ausfüllen · object | Scrollen · object)[]

Aktionen, die auf der Seite ausgeführt werden sollen, bevor der Inhalt abgerufen wird.

country
string

Wohnsitzland, aus dem die Anfrage geladen werden soll. Unterstützte Werte sind: - US (Vereinigte Staaten) - CA (Kanada) - IT (Italien) - IN (Indien) - GB (England) - JP (Japan) - MX (Mexiko) - AU (Australien) - ID (Indonesien) - UA (VAE) - RU (Russland) - RANDOM Einige Operationen, wie das Scraping von Google Search und Google News, unterstützen alle Länder.

transformer
enum<string>

Geben Sie den zu verwendenden HTML-Transformer an, falls vorhanden. Die Mercury Parser-Bibliothek von Postlight wird verwendet, um Anzeigen und andere unerwünschte Inhalte aus dem gescrapten Inhalt zu entfernen.

Beschikbare opties:
postlight,
none
remove_images
boolean
standaard:false

Option, Bilder aus dem gescrapten Inhalt zu entfernen. Standardmäßig auf false gesetzt.

remove_class_names
string[]

Liste von Klassennamen, die aus dem Inhalt entfernt werden sollen.

parser
object

Wenn json als Format definiert ist, können Sie diesen Parameter verwenden, um den zu verwendenden Parser anzugeben. Parser sind nützlich, um strukturierten Inhalt aus Webseiten zu extrahieren. Olostep hat einige Parser für die gängigsten Webseiten eingebaut, und Sie können auch Ihre eigenen Parser erstellen.

llm_extract
object

Mit dieser Option können Sie alle Links erhalten, die auf der Seite vorhanden sind, die Sie scrapen.

screen_size
object

Konfiguration für Bildschirmgröße. Voreingestellte Abmessungen sind über screen_type verfügbar: desktop (1920x1080), mobile (414x896) oder default (768x1024).

screenshot
object
metadata
object

Benutzerdefinierte Metadaten. Noch nicht unterstützt.

Respons

Erfolgreiche Antwort mit den Details zur Einleitung des Scrapes.

id
string

Scrape-ID

object
string

Die Art des Objekts. "scrape" für diesen Endpunkt.

created
number

Erstelltes Epochendatum

metadata
object

Benutzerdefinierte Metadaten.

url_to_scrape
string

Die URL, die gescraped wurde.

result
object