Scrape un URL con la configurazione fornita e ottieni il contenuto.
Intestazione di autenticazione Bearer della forma Bearer
L'URL da cui iniziare lo scraping.
Tempo di attesa in millisecondi prima di iniziare lo scraping.
Formati nei quali vuoi il contenuto.
html, markdown, text, json, raw_pdf, screenshot Opzione per rimuovere determinati selettori CSS dal contenuto. Facoltativamente, puoi anche passare un array JSON stringificato di selettori specifici che vuoi rimuovere. I selettori CSS rimossi quando questa opzione è impostata su default sono ['nav','footer','script','style','noscript','svg',[role=alert],[role=banner],[role=dialog],[role=alertdialog],[role=region][aria-label*=skip i],[aria-modal=true]]
default, none, array Azioni da eseguire sulla pagina prima di ottenere il contenuto.
Paese residenziale da cui caricare la richiesta. Valori supportati sono: - US (Stati Uniti) - CA (Canada) - IT (Italia) - IN (India) - GB (Inghilterra) - JP (Giappone) - MX (Messico) - AU (Australia) - ID (Indonesia) - UA (UAE) - RU (Russia) - RANDOM Alcune operazioni, come lo scraping di Google Search e Google News, supportano tutti i paesi.
Specifica il trasformatore HTML da usare, se presente. La libreria Mercury Parser di Postlight è usata per rimuovere annunci e altri contenuti indesiderati dal contenuto estratto.
postlight, none Opzione per rimuovere le immagini dal contenuto estratto. Di default è false.
Elenco di nomi di classi da rimuovere dal contenuto.
Quando definisci json come formato, puoi usare questo parametro per specificare il parser da utilizzare. I parser sono utili per estrarre contenuti strutturati dalle pagine web. Olostep ha alcuni parser integrati per le pagine web più comuni, e puoi anche creare i tuoi parser.
Con questa opzione, puoi ottenere tutti i link presenti sulla pagina che stai scrappando.
Configurazione per la dimensione dello schermo. Le dimensioni preimpostate sono disponibili tramite screen_type: desktop (1920x1080), mobile (414x896) o default (768x1024).
Metadata definiti dall'utente. Non supportato ancora.