Panoramica
L’endpoint Batches di Olostep ti consente di avviare un batch di fino a 10.000 URL e ottenere il contenuto in 5–7 minuti. Puoi avviare fino a 10 batch contemporaneamente per estrarre contenuti da 100.000 URL in un colpo solo. Se hai bisogno di maggiore scala, contattaci. Questo è utile se hai già gli URL che vuoi processare — ad esempio, per aggregare dati per analisi, costruire uno strumento di ricerca specializzato o monitorare più siti web per cambiamenti. In questa guida, ti mostreremo come avviare un batch con una lista di URL e recuperare il contenuto in formato markdown.Gist con Codice Completo
Ecco tutto il codice in un unico gist che puoi copiare e incollare per provare il batch scraping con Olostep: https://gist.github.com/olostep/e903f2e4fc28f8093b834b4df68b8031 In questo gist abbiamo mostrato come avviare un batch con 5 query di ricerca su Google, controllare lo stato e recuperare il contenuto per ciascun elemento.Prerequisiti
Prima di iniziare, assicurati di avere quanto segue:- Una chiave API Olostep valida. Puoi ottenerne una registrandoti su Olostep.
- Python installato sul tuo sistema.
- Le librerie
requestsehashlib(installarequestsconpip install requestsse necessario).
Passo 1: Crea un Batch da URL Locali
Se hai già una lista di URL che vuoi processare, puoi definirli direttamente nel tuo script. Altrimenti, puoi leggerli da un file o database.Passo 2: Monitora lo Stato del Batch
Una volta avviato il batch, puoi monitorare il suo stato utilizzando ilbatch_id che viene restituito quando avvii il batch.
Passo 3: Recupera gli Elementi Completati
Una volta che il batch è contrassegnato come completo, recupera gli elementi processati.retrieve_id che puoi usare per ottenere il contenuto estratto.
Passo 4: Recupera il Contenuto
Usa ilretrieve_id per ottenere il contenuto estratto in markdown, html o json. Ecco un esempio per recuperare il contenuto in formato markdown:
Contenuto Ospitato
Ospitiamo anche il contenuto per 7 giorni, quindi puoi recuperarlo più volte senza dover rifare lo scraping. Esempio di un URL ospitato per contenuto markdownEsempi di Casi d’Uso
1. Costruisci Motori di Ricerca
Usa Olostep per estrarre contenuti da siti web specifici per settore (legale, medico, AI) e costruisci un database ricercabile.2. Monitoraggio di Siti Web
Monitora la disponibilità dei prodotti, le variazioni di prezzo o gli aggiornamenti di notizie su più siti web programmando scraping batch giornalieri.3. Monitoraggio dei Social Media
Esegui lo scraping delle menzioni del tuo marchio o parole chiave su forum o fonti di contenuti ed estrai dati strutturati.4. Aggregatori
Costruisci una bacheca di lavoro, un aggregatore di notizie o una piattaforma di annunci immobiliari estraendo dati da dozzine di fonti.Conclusione
Con il batch scraping, puoi estrarre contenuti da fino a 100k URL rapidamente ed efficientemente. Che tu stia costruendo strumenti di ricerca, aggregatori o sistemi di monitoraggio, i Batch di Olostep semplificano il lavoro. Vuoi estrarre solo dati strutturati? Usa i Parsers per ottenere solo i campi di cui hai bisogno. Hai bisogno di aiuto? Contattainfo@olostep.com per supporto o per farci scrivere script personalizzati per il tuo caso d’uso.