Panoramica
L’endpoint Batches di Olostep ti consente di avviare una raccolta di fino a 10.000 URL e ottenere il contenuto in 5-7 minuti. Puoi avviare fino a 10 raccolte contemporaneamente per estrarre contenuti da 100.000 URL in un colpo solo. Se hai bisogno di maggiore scalabilità, contattaci. Questo è utile se hai già gli URL che vuoi processare — ad esempio, per aggregare dati per analisi, costruire uno strumento di ricerca specializzato o monitorare più siti web per cambiamenti. In questa guida, ti mostreremo come avviare una raccolta con una lista di URL e recuperare il contenuto in formato markdown.Gist con Codice Completo
Ecco tutto il codice in un unico gist che puoi copiare e incollare per provare la raccolta batch con Olostep: https://gist.github.com/olostep/e903f2e4fc28f8093b834b4df68b8031 In questo gist abbiamo mostrato come avviare una raccolta con 5 query di ricerca su Google, controllare lo stato e recuperare il contenuto per ogni elemento.Prerequisiti
Prima di iniziare, assicurati di avere quanto segue:- Una chiave API valida di Olostep. Puoi ottenerne una registrandoti su Olostep.
- Python installato sul tuo sistema.
- Le librerie
requestsehashlib(installarequestsconpip install requestsse necessario).
Passo 1: Crea una Raccolta da URL Locali
Se hai già una lista di URL che vuoi processare, puoi definirli direttamente nel tuo script. Altrimenti, puoi leggerli da un file o database.Passo 2: Monitora lo Stato della Raccolta
Una volta avviata la raccolta, puoi monitorarne lo stato usando ilbatch_id che viene restituito quando avvii la raccolta.
Passo 3: Recupera gli Elementi Completati
Una volta che la raccolta è segnata come completa, recupera gli elementi processati.retrieve_id che puoi usare per ottenere il contenuto estratto.
Passo 4: Recupera il Contenuto
Usa ilretrieve_id per ottenere il contenuto estratto in markdown, html o json. Ecco un esempio per recuperare il contenuto in formato markdown:
Contenuto Ospitato
Ospitiamo anche il contenuto per 7 giorni, quindi puoi recuperarlo più volte senza dover rifare il scraping. Esempio di un URL ospitato per contenuto markdownEsempi di Casi d’Uso
1. Costruire Motori di Ricerca
Usa Olostep per estrarre contenuti da siti web specifici per settore (legale, medico, AI) e costruire un database ricercabile.2. Monitoraggio di Siti Web
Monitora la disponibilità di prodotti, cambiamenti di prezzo o aggiornamenti di notizie su più siti web pianificando raccolte batch giornaliere.3. Monitoraggio dei Social Media
Esegui il scraping delle menzioni del tuo marchio o parole chiave su forum o fonti di contenuto ed estrai dati strutturati.4. Aggregatori
Costruisci una bacheca di lavoro, un aggregatore di notizie o una piattaforma di annunci immobiliari estraendo dati da dozzine di fonti.Conclusione
Con la raccolta batch, puoi estrarre contenuti da fino a 100k URL rapidamente ed efficientemente. Che tu stia costruendo strumenti di ricerca, aggregatori o sistemi di monitoraggio, le Raccolte di Olostep semplificano il lavoro. Vuoi estrarre solo dati strutturati? Usa i Parsers per ottenere solo i campi di cui hai bisogno. Hai bisogno di aiuto? Contattainfo@olostep.com per supporto o per farci scrivere script personalizzati per il tuo caso d’uso.