Caratteristiche
L’integrazione fornisce accesso a tutte le 5 capacità dell’API Olostep:Scrapes
Estrai contenuti da qualsiasi URL singolo in più formati (Markdown, HTML, JSON, testo)
Batches
Elabora fino a 10.000 URL in parallelo. I lavori batch si completano in 5-8 minuti
Answers
Ricerca web potenziata dall’AI con query in linguaggio naturale e output strutturato
Maps
Estrai tutti gli URL da un sito web per l’analisi della struttura del sito
Crawls
Scopri e estrai autonomamente interi siti web seguendo i link
Installazione
Configurazione
Imposta la tua chiave API Olostep come variabile d’ambiente:Strumenti Disponibili
scrape_website
Estrai contenuti da un singolo URL. Supporta più formati e il rendering JavaScript.URL del sito web da estrarre (deve includere http:// o https://)
Formato di output:
markdown, html, json o textCodice del paese per contenuti specifici della località (es. “US”, “GB”, “CA”)
Tempo di attesa in millisecondi per il rendering JavaScript (0-10000)
ID del parser opzionale per l’estrazione specializzata (es. “@olostep/amazon-product”)
scrape_batch
Elabora più URL in parallelo (fino a 10.000 contemporaneamente).Elenco di URL da estrarre
Formato di output per tutti gli URL:
markdown, html, json o textCodice del paese per contenuti specifici della località
Tempo di attesa in millisecondi per il rendering JavaScript
ID del parser opzionale per l’estrazione specializzata
answer_question
Cerca sul web e ottieni risposte potenziate dall’AI con fonti. Perfetto per l’arricchimento dei dati e la ricerca.Domanda o compito da cercare
Dizionario/stringa dello schema JSON opzionale che descrive il formato di output desiderato
extract_urls
Estrai tutti gli URL da un sito web per l’analisi della struttura del sito.URL del sito web da cui estrarre gli URL
Query di ricerca opzionale per filtrare gli URL
Limita il numero di URL restituiti
Modelli glob per includere (es. [“/blog/**”])
Modelli glob per escludere (es. [“/admin/**”])
crawl_website
Scopri e estrai autonomamente interi siti web seguendo i link.URL di partenza per il crawl
Numero massimo di pagine da esplorare
Modelli glob per includere (es. [”/**”] per tutti)
Modelli glob per escludere (es. [“/admin/**”])
Profondità massima da esplorare a partire da start_url
Includi URL esterni
Integrazione Agente LangChain
Crea agenti intelligenti che possono cercare e estrarre dal web:Integrazione LangGraph
Crea flussi di lavoro complessi a più fasi con LangGraph:Casi d’Uso Avanzati
Arricchimento Dati
Arricchisci i dati dei fogli di calcolo con informazioni web:Web Scraping di Prodotti E-commerce
Estrai dati sui prodotti con parser specializzati:Audit SEO
Analizza interi siti web per SEO:Estrazione Documentazione
Esplora ed estrai documentazione:Parser Specializzati
Olostep fornisce parser pre-costruiti per siti web popolari:@olostep/google-search- Risultati di ricerca Google
parser:
Gestione degli Errori
Buone Pratiche
Usa il Batch Processing per Più URL
Usa il Batch Processing per Più URL
Quando estrai più di 3-5 URL, usa
scrape_batch invece di più chiamate scrape_website. Il batch processing è molto più veloce ed economico.Imposta Timeout Appropriati
Imposta Timeout Appropriati
Per siti pesanti in JavaScript, usa il parametro
wait_before_scraping (2000-5000ms è tipico). Questo assicura che il contenuto dinamico sia completamente caricato.Usa Parser Specializzati
Usa Parser Specializzati
Per siti web popolari (Amazon, LinkedIn, Google), usa i nostri parser pre-costruiti per ottenere automaticamente dati strutturati.
Filtra gli URL in Modo Efficiente
Filtra gli URL in Modo Efficiente
Quando usi
extract_urls o crawl_website, usa modelli glob per concentrarti sulle pagine rilevanti ed evitare elaborazioni non necessarie.Gestisci i Limiti di Velocità
Gestisci i Limiti di Velocità
Implementa il backoff esponenziale per errori di limite di velocità. L’API gestisce automaticamente la maggior parte dei limiti di velocità internamente.
Supporto
- Pacchetto PyPI: langchain-olostep
- Documentazione: docs.olostep.com
- Problemi: GitHub Issues
- Email: info@olostep.com
Risorse Correlate
Scrapes API
Scopri l’endpoint Scrapes
Batches API
Scopri l’endpoint Batches
Answers API
Scopri l’endpoint Answers
Maps API
Scopri l’endpoint Maps
Crawls API
Scopri l’endpoint Crawls
Python SDK
Esplora il Python SDK
LangChain Website
Piattaforma LangChain