Panoramica
L’endpoint Batches di Olostep ti consente di avviare un batch di fino a 10.000 URL e ottenere il contenuto in 5–7 minuti. Puoi avviare fino a 10 batch contemporaneamente per estrarre contenuti da 100.000 URL in un colpo solo. Se hai bisogno di più scalabilità, contattaci. Questo è utile se hai già gli URL che vuoi processare — ad esempio, per aggregare dati per analisi, costruire uno strumento di ricerca specializzato o monitorare più siti web per cambiamenti. In questa guida, vedremo come avviare un batch con un elenco di URL e recuperare il contenuto in formato markdown.Gist con Codice Completo
Ecco tutto il codice in un unico gist che puoi copiare e incollare per provare l’estrazione in batch con Olostep: https://gist.github.com/olostep/e903f2e4fc28f8093b834b4df68b8031 In questo gist abbiamo mostrato come avviare un batch con 5 query di ricerca su Google, controllare lo stato e recuperare il contenuto per ciascun elemento.Prerequisiti
Prima di iniziare, assicurati di avere quanto segue:- Una chiave API valida di Olostep. Puoi ottenerne una registrandoti su Olostep.
- Python installato sul tuo sistema.
- Le librerie
requestsehashlib(installarequestsconpip install requestsse necessario).
Passo 1: Crea un Batch da URL Locali
Se hai già un elenco di URL che vuoi processare, puoi definirli direttamente nel tuo script. Altrimenti, puoi leggerli da un file o database.Passo 2: Monitora lo Stato del Batch
Una volta avviato il batch, puoi monitorare il suo stato utilizzando ilbatch_id che viene restituito quando avvii il batch.
Passo 3: Recupera gli Elementi Completati
Una volta che il batch è contrassegnato come completo, recupera gli elementi processati.retrieve_id che puoi usare per ottenere il contenuto estratto.
Passo 4: Recupera il Contenuto
Usa ilretrieve_id per ottenere il contenuto estratto in markdown, html o json. Ecco un esempio per recuperare il contenuto in formato markdown:
Contenuto Ospitato
Ospitiamo anche il contenuto per 7 giorni, quindi puoi recuperarlo più volte senza doverlo riestrarre. Esempio di un URL ospitato per contenuto markdownEsempi di Casi d’Uso
1. Costruire Motori di Ricerca
Usa Olostep per estrarre contenuti da siti web specifici di settore (legale, medico, AI) e costruire un database ricercabile.2. Monitoraggio di Siti Web
Monitora la disponibilità di prodotti, variazioni di prezzo o aggiornamenti di notizie su più siti web programmando estrazioni in batch giornaliere.3. Monitoraggio dei Social Media
Estrai menzioni del tuo marchio o parole chiave su forum o fonti di contenuto ed estrai dati strutturati.4. Aggregatori
Costruisci una bacheca di lavoro, un aggregatore di notizie o una piattaforma di annunci immobiliari estraendo dati da dozzine di fonti.Conclusione
Con l’estrazione in batch, puoi ottenere contenuti da fino a 100k URL in modo rapido ed efficiente. Che tu stia costruendo strumenti di ricerca, aggregatori o sistemi di monitoraggio, i Batches di Olostep semplificano il lavoro. Vuoi estrarre solo dati strutturati? Usa i Parsers per ottenere solo i campi di cui hai bisogno. Hai bisogno di aiuto? Contattainfo@olostep.com per supporto o per farci scrivere script personalizzati per il tuo caso d’uso.