Caratteristiche
L’integrazione fornisce 4 potenti API per l’estrazione automatizzata di dati web:Scrape Website
Estrai contenuti da qualsiasi singolo URL in più formati (Markdown, HTML, JSON, testo)
Batch Scrape URLs
Elabora fino a 100.000 URL in parallelo. Perfetto per l’estrazione di dati su larga scala
Create Crawl
Scopri e fai scraping autonomamente di interi siti web seguendo i link
Create Map
Estrai tutti gli URL da un sito web per l’analisi della struttura del sito e la scoperta di contenuti
Installazione
Configurazione
1. Installa il Pacchetto
2. Importa e Registra l’Integrazione
Nel tuo file di configurazione Mastra:3. Configura la Chiave API
Imposta la tua chiave API Olostep come variabile d’ambiente:.env:
API Disponibili
L’integrazione espone 4 API che i tuoi agenti Mastra possono utilizzare:scrapeWebsite
Estrai contenuti da un singolo URL. Supporta più formati e rendering JavaScript. Casi d’Uso:- Monitora pagine specifiche per cambiamenti
- Estrai informazioni sui prodotti da siti di e-commerce
- Raccogli dati da articoli di notizie o post di blog
- Recupera contenuti per aggregazione di contenuti
La tua chiave API Olostep
URL del sito web da fare scraping (deve includere http:// o https://)
Formati di output: [‘html’, ‘markdown’, ‘json’, ‘text’]
Codice del paese per contenuti specifici della località (es., “US”, “GB”, “CA”)
Tempo di attesa in millisecondi per il rendering JavaScript (0-10000)
ID parser opzionale per estrazione specializzata (es., “@olostep/amazon-product”)
id- ID dello scrapingurl_to_scrape- URL fatto scrapingresult.markdown_content- Contenuto in Markdownresult.html_content- Contenuto in HTMLresult.json_content- Contenuto in JSONresult.text_content- Contenuto in testoresult.screenshot_hosted_url- URL dello screenshot (se disponibile)result.markdown_hosted_url- URL del markdown ospitatoobject- Tipo di oggetto (“scrape”)created- Timestamp Unix
batchScrape
Elabora più URL in parallelo (fino a 100.000 contemporaneamente). Perfetto per l’estrazione di dati su larga scala. Casi d’Uso:- Fai scraping di interi cataloghi di prodotti
- Estrai dati da più risultati di ricerca
- Elabora liste di URL da fogli di calcolo
- Estrazione di contenuti in blocco
La tua chiave API Olostep
Array di oggetti con campi
url e custom_id opzionaleEsempio: [{"url":"https://example.com","custom_id":"site1"}]Formati di output per tutti gli URL
Codice del paese per scraping specifico della località
Tempo di attesa in millisecondi per il rendering JavaScript
ID parser opzionale per estrazione specializzata
batch_id- ID del batch (usalo per recuperare i risultati in seguito)status- Stato dell’elaborazioneobject- Tipo di oggetto (“batch”)
createCrawl
Scopri e fai scraping autonomamente di interi siti web seguendo i link. Perfetto per siti di documentazione, blog e repository di contenuti. Casi d’Uso:- Fai crawling e archivia interi siti di documentazione
- Estrai tutti i post di blog da un sito web
- Crea basi di conoscenza da contenuti web
- Monitora i cambiamenti nella struttura del sito
La tua chiave API Olostep
URL di partenza per il crawl (deve includere http:// o https://)
Numero massimo di pagine da fare crawling
Se seguire i link trovati sulle pagine
Formato per il contenuto fatto scraping
Codice del paese opzionale per crawling specifico della località
ID parser opzionale per estrazione di contenuti specializzati
id- ID del crawl (usalo per recuperare i risultati in seguito)object- Tipo di oggetto (“crawl”)status- Stato del crawlcreated- Timestamp Unix
createMap
Estrai tutti gli URL da un sito web per la scoperta di contenuti e l’analisi della struttura del sito. Casi d’Uso:- Crea mappe del sito e diagrammi della struttura del sito
- Scopri tutte le pagine prima di fare batch scraping
- Trova pagine rotte o mancanti
- Audit e analisi SEO
La tua chiave API Olostep
URL del sito web da cui estrarre i link (deve includere http:// o https://)
Query di ricerca opzionale per filtrare gli URL (es., “blog”)
Limita il numero di URL restituiti
Pattern glob per includere percorsi specifici (es., [“/blog/**”])
Pattern glob per escludere percorsi specifici (es., [“/admin/**”])
id- ID della mappaobject- Tipo di oggetto (“map”)url- URL del sito webtotal_urls- Totale degli URL trovatiurls- Array di URL scoperti
Utilizzo con Agenti
Esempio di Agente Base
Crea un agente che può fare scraping di siti web:Esempio di Workflow dell’Agente
Costruisci un workflow di ricerca che scopre e fa scraping di contenuti:Casi d’Uso Popolari
Agente di Ricerca
Crea un agente che ricerca autonomamente argomenti:Ricerca Multi-Sorgente
Ricerca Multi-Sorgente
Workflow:
- L’utente chiede: “Ricerca tendenze AI”
- L’agente usa
createMapper scoprire pagine rilevanti - L’agente usa
batchScrapeper estrarre contenuti - L’agente analizza e riassume i risultati
- Restituisce un report di ricerca strutturato
Monitoraggio della Concorrenza
Monitoraggio della Concorrenza
Workflow:
- Pianifica il monitoraggio giornaliero
- Usa
scrapeWebsiteper controllare le pagine dei concorrenti - Confronta con i dati precedenti
- Allerta sui cambiamenti significativi
- Genera report settimanali
Aggregazione di Contenuti
Aggregazione di Contenuti
Workflow:
- Usa
createCrawlper scoprire tutti i post del blog - Usa
batchScrapeper estrarre contenuti - Elabora con AI per estrarre argomenti chiave
- Archivia nella base di conoscenza
- Genera un calendario dei contenuti
Intelligenza E-commerce
Monitora prodotti e prezzi:Analisi SEO
Analizza la struttura e i contenuti del sito web:Parser Specializzati
Olostep fornisce parser pre-costruiti per siti web popolari. Usali con il parametroparser:
Google Search
@olostep/google-searchEstrai: risultati di ricerca, titoli, snippet, URLGoogle Maps
@olostep/google-mapsEstrai: informazioni aziendali, recensioni, valutazioni, posizioneUtilizzo dei Parser
Aggiungi l’ID del parser al parametroparser:
Migliori Pratiche
Usa l'Elaborazione in Batch per Più URL
Usa l'Elaborazione in Batch per Più URL
Quando fai scraping di più di 3-5 URL, usa
batchScrape invece di più chiamate scrapeWebsite. L’elaborazione in batch è:- Molto più veloce (elaborazione parallela)
- Più conveniente
- Più facile da gestire
- Migliore per i limiti di velocità
Imposta Tempi di Attesa Appropriati
Imposta Tempi di Attesa Appropriati
Per siti pesanti in JavaScript, usa il parametro
wait_before_scraping:- Siti semplici: 0-1000ms
- Siti dinamici: 2000-3000ms
- JavaScript pesante: 5000-8000ms
Usa Parser Specializzati
Usa Parser Specializzati
Per siti web popolari (Amazon, LinkedIn, Google), usa parser pre-costruiti:
- Ottieni dati strutturati automaticamente
- Estrazione più affidabile
- Nessun bisogno di parsing personalizzato
- Mantenuto da Olostep
Gestisci Operazioni Asincrone
Gestisci Operazioni Asincrone
Le operazioni Batch, Crawl e Map sono asincrone:
- Memorizza l’ID restituito (batch_id, crawl_id, map_id)
- Poll per il completamento o usa webhook
- Imposta workflow separati per il recupero
Gestione degli Errori
Gestione degli Errori
Avvolgi sempre le chiamate API in blocchi try-catch:
Limitazione della Velocità
Limitazione della Velocità
Fai attenzione ai limiti di velocità:
- Spazia le richieste con ritardi
- Usa l’elaborazione in batch quando possibile
- Monitora l’uso nella dashboard di Olostep
- Aggiorna il piano se necessario
Esempio Completo
Ecco un esempio completo di costruzione di un agente di ricerca:Risoluzione dei Problemi
Autenticazione Fallita
Autenticazione Fallita
Errore: “Chiave API non valida”Soluzioni:
- Controlla la chiave API dalla dashboard
- Assicurati che la chiave API sia impostata nella variabile d’ambiente
- Verifica che la chiave API sia attiva
- Controlla spazi extra nella chiave API
API Non Trovata
API Non Trovata
Errore: “API non trovata” o “Integrazione non registrata”Soluzioni:
- Assicurati che
registerApis()sia chiamato dopo la creazione dell’integrazione - Verifica che l’integrazione sia aggiunta alla configurazione Mastra
- Controlla che il nome dell’integrazione sia ‘olostep’
- Riavvia il server Mastra dopo le modifiche
Scrape Restituisce Contenuto Vuoto
Scrape Restituisce Contenuto Vuoto
Errore: I campi di contenuto sono vuotiSoluzioni:
- Aumenta il tempo
wait_before_scraping - Controlla se il sito richiede il login
- Prova un formato diverso (HTML vs Markdown)
- Verifica che l’URL sia accessibile
- Controlla se il sito blocca l’accesso automatizzato
Limite di Velocità Superato
Limite di Velocità Superato
Errore: “Limite di velocità superato”Soluzioni:
- Spazia le richieste con ritardi
- Usa l’elaborazione in batch invece di scraping individuali
- Aggiorna il tuo piano Olostep
- Controlla il limite di velocità nella dashboard
Errori di TypeScript
Errori di TypeScript
Errore: Modulo non trovato o errori di tipoSoluzioni:
- Assicurati che
@mastra/coresia installato - Controlla la compatibilità della versione di TypeScript
- Verifica che tutte le dipendenze siano installate
- Ricostruisci:
npm run build
Prezzi
Olostep addebita in base all’uso dell’API, indipendentemente da Mastra:- Scrapes: Paghi per ogni scraping
- Batches: Paghi per URL nel batch
- Crawls: Paghi per pagina fatta crawling
- Maps: Paghi per ogni operazione di mappa
Supporto
Hai bisogno di aiuto con l’integrazione Mastra?Documentazione
Sfoglia la documentazione completa dell’API
Email di Supporto
Email: info@olostep.com
Documenti Mastra
Scopri il framework Mastra
Risorse Correlate
Scrapes API
Scopri l’endpoint Scrapes
Batches API
Scopri l’endpoint Batches
Crawls API
Scopri l’endpoint Crawls
Maps API
Scopri l’endpoint Maps
Integrazione Zapier
Automatizza con i workflow di Zapier
Integrazione LangChain
Crea agenti AI con LangChain
Sito Web Mastra
Piattaforma Mastra
Inizia Subito
Pronto a costruire agenti AI con capacità di web scraping?Installa il Pacchetto
Installa @olostep/mastra-tools da npm