Crea Scrape
Scrape un URL con la configurazione fornita e ottieni il contenuto.
Autorizzazioni
Intestazione di autenticazione Bearer del tipo Bearer , dove è il tuo token di autenticazione.
Corpo
L'URL da cui iniziare lo scraping.
Tempo di attesa in millisecondi prima di iniziare lo scraping.
Formati nei quali vuoi il contenuto.
html, markdown, text, json, raw_pdf, screenshot Opzione per rimuovere determinati selettori CSS dal contenuto. Facoltativamente, puoi anche passare un array JSON stringificato di selettori specifici che vuoi rimuovere. I selettori CSS rimossi quando questa opzione è impostata su default sono ['nav','footer','script','style','noscript','svg',[role=alert],[role=banner],[role=dialog],[role=alertdialog],[role=region][aria-label*=skip i],[aria-modal=true]]
default, none, array Azioni da eseguire sulla pagina prima di ottenere il contenuto.
- Attendere
- Cliccare
- Compila Input
- Scorri
Paese residenziale da cui caricare la richiesta. Valori supportati sono: - US (Stati Uniti) - CA (Canada) - IT (Italia) - IN (India) - GB (Inghilterra) - JP (Giappone) - MX (Messico) - AU (Australia) - ID (Indonesia) - UA (UAE) - RU (Russia) - RANDOM Alcune operazioni, come lo scraping di Google Search e Google News, supportano tutti i paesi.
Specifica il trasformatore HTML da usare, se presente. La libreria Mercury Parser di Postlight è usata per rimuovere annunci e altri contenuti indesiderati dal contenuto estratto.
postlight, none Opzione per rimuovere le immagini dal contenuto estratto. Di default è false.
Elenco dei nomi di classe da rimuovere dal contenuto.
Quando definisci json come formato, puoi usare questo parametro per specificare il parser da utilizzare. I parser sono utili per estrarre contenuti strutturati dalle pagine web. Olostep ha alcuni parser integrati per le pagine web più comuni, e puoi anche creare i tuoi parser.
Con questa opzione, puoi ottenere tutti i link presenti sulla pagina che stai scrappando. I link sono sempre restituiti come URL assoluti.
Configurazione per la dimensione dello schermo. Le dimensioni preimpostate sono disponibili tramite screen_type: desktop (1920x1080), mobile (414x896) o default (768x1024).
Metadati definiti dall'utente. Non ancora supportato.
Risposta
Risposta positiva con i dettagli dell'inizio dello scraping.
ID dello scraping
Il tipo di oggetto. "scrape" per questo endpoint.
Epoch creato
Metadati definiti dall'utente.
L'URL che è stato sottoposto a scraping.
Numero di crediti consumati da questa richiesta. Popolato dopo il completamento dell'esecuzione. I crediti sono la fonte di verità per la fatturazione.
Costo stimato in USD per questa richiesta. Popolato dopo il completamento dell'esecuzione. Calcolato dai crediti consumati e dal tuo piano tariffario — 99% accurato, ma credits_consumed è il valore autorevole.