Vai al contenuto principale
POST
/
v1
/
scrapes
Inizia uno scraping di una pagina web
curl --request POST \
  --url https://api.olostep.com/v1/scrapes \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url_to_scrape": "<string>",
  "wait_before_scraping": 123,
  "formats": [
    "html"
  ],
  "remove_css_selectors": "default",
  "actions": [
    {
      "type": "wait",
      "milliseconds": 1
    }
  ],
  "country": "<string>",
  "transformer": "postlight",
  "remove_images": false,
  "remove_class_names": [
    "<string>"
  ],
  "llm_extract": {
    "schema": {}
  },
  "links_on_page": {
    "absolute_links": true,
    "query_to_order_links_by": "<string>",
    "include_links": [
      "<string>"
    ],
    "exclude_links": [
      "<string>"
    ]
  },
  "screen_size": {
    "screen_type": "default",
    "screen_width": 123,
    "screen_height": 123
  },
  "screenshot": {
    "full_page": true
  },
  "metadata": {}
}
'
{
  "id": "<string>",
  "object": "<string>",
  "created": 123,
  "metadata": {},
  "url_to_scrape": "<string>",
  "result": {
    "html_content": "<string>",
    "markdown_content": "<string>",
    "text_content": "<string>",
    "json_content": "<string>",
    "screenshot_hosted_url": "<string>",
    "html_hosted_url": "<string>",
    "markdown_hosted_url": "<string>",
    "text_hosted_url": "<string>",
    "links_on_page": [
      "<string>"
    ],
    "page_metadata": {
      "status_code": 123,
      "title": "<string>"
    }
  }
}

Autorizzazioni

Authorization
string
header
obbligatorio

Intestazione di autenticazione Bearer della forma Bearer , dove è il tuo token di autenticazione.

Corpo

application/json
url_to_scrape
string<uri>
obbligatorio

L'URL da cui iniziare lo scraping.

wait_before_scraping
integer

Tempo di attesa in millisecondi prima di iniziare lo scraping.

formats
enum<string>[]

Formati nei quali vuoi il contenuto.

Opzioni disponibili:
html,
markdown,
text,
json,
raw_pdf,
screenshot
remove_css_selectors
enum<string>

Opzione per rimuovere determinati selettori CSS dal contenuto. Facoltativamente, puoi anche passare un array JSON stringificato di selettori specifici che vuoi rimuovere. I selettori CSS rimossi quando questa opzione è impostata su default sono ['nav','footer','script','style','noscript','svg',[role=alert],[role=banner],[role=dialog],[role=alertdialog],[role=region][aria-label*=skip i],[aria-modal=true]]

Opzioni disponibili:
default,
none,
array
actions
(Attendere · object | Cliccare · object | Compila Input · object | Scorri · object)[]

Azioni da eseguire sulla pagina prima di ottenere il contenuto.

country
string

Paese residenziale da cui caricare la richiesta. Valori supportati sono: - US (Stati Uniti) - CA (Canada) - IT (Italia) - IN (India) - GB (Inghilterra) - JP (Giappone) - MX (Messico) - AU (Australia) - ID (Indonesia) - UA (UAE) - RU (Russia) - RANDOM Alcune operazioni, come lo scraping di Google Search e Google News, supportano tutti i paesi.

transformer
enum<string>

Specifica il trasformatore HTML da usare, se presente. La libreria Mercury Parser di Postlight è usata per rimuovere annunci e altri contenuti indesiderati dal contenuto estratto.

Opzioni disponibili:
postlight,
none
remove_images
boolean
predefinito:false

Opzione per rimuovere le immagini dal contenuto estratto. Di default è false.

remove_class_names
string[]

Elenco di nomi di classi da rimuovere dal contenuto.

parser
object

Quando definisci json come formato, puoi usare questo parametro per specificare il parser da utilizzare. I parser sono utili per estrarre contenuti strutturati dalle pagine web. Olostep ha alcuni parser integrati per le pagine web più comuni, e puoi anche creare i tuoi parser.

llm_extract
object

Con questa opzione, puoi ottenere tutti i link presenti sulla pagina che stai scrappando.

screen_size
object

Configurazione per la dimensione dello schermo. Le dimensioni preimpostate sono disponibili tramite screen_type: desktop (1920x1080), mobile (414x896) o default (768x1024).

screenshot
object
metadata
object

Metadata definiti dall'utente. Non supportato ancora.

Risposta

Risposta positiva con i dettagli dell'inizio dello scrape.

id
string

ID dello Scrape

object
string

Il tipo di oggetto. "scrape" per questo endpoint.

created
number

Epoch creato

metadata
object

Metadata definiti dall'utente.

url_to_scrape
string

L'URL che è stato scrappato.

result
object