L’integrazione Olostep LangChain fornisce strumenti completi per costruire agenti AI che possono cercare, estrarre, analizzare e strutturare dati da qualsiasi sito web. Perfetto per applicazioni LangChain e LangGraph.Documentation Index
Fetch the complete documentation index at: https://docs.olostep.com/llms.txt
Use this file to discover all available pages before exploring further.
Caratteristiche
L’integrazione fornisce accesso a tutte le 5 capacità dell’API Olostep:Scrapes
Estrai contenuti da qualsiasi singolo URL in più formati (Markdown, HTML, JSON, testo)
Batches
Elabora fino a 10.000 URL in parallelo. I lavori batch si completano in 5-8 minuti
Answers
Ricerca web potenziata dall’AI con query in linguaggio naturale e output strutturato
Maps
Estrai tutti gli URL da un sito web per l’analisi della struttura del sito
Crawls
Scopri ed estrai autonomamente interi siti web seguendo i link
Installazione
Configurazione
Imposta la tua chiave API Olostep come variabile d’ambiente:Strumenti Disponibili
scrape_website
Estrai contenuti da un singolo URL. Supporta più formati e il rendering JavaScript.URL del sito web da estrarre (deve includere http:// o https://)
Formato di output:
markdown, html, json, o textCodice del paese per contenuti specifici della località (es. “US”, “GB”, “CA”)
Tempo di attesa in millisecondi per il rendering JavaScript (0-10000)
ID parser opzionale per estrazione specializzata (es. “@olostep/amazon-product”)
scrape_batch
Elabora più URL in parallelo (fino a 10.000 contemporaneamente).Elenco di URL da estrarre
Formato di output per tutti gli URL:
markdown, html, json, o textCodice del paese per contenuti specifici della località
Tempo di attesa in millisecondi per il rendering JavaScript
ID parser opzionale per estrazione specializzata
answer_question
Cerca sul web e ottieni risposte potenziate dall’AI con fonti. Perfetto per arricchimento dati e ricerca.Domanda o compito da cercare
Dizionario/stringa schema JSON opzionale che descrive il formato di output desiderato
extract_urls
Estrai tutti gli URL da un sito web per l’analisi della struttura del sito.URL del sito web da cui estrarre gli URL
Query di ricerca opzionale per filtrare gli URL
Limita il numero di URL restituiti
Modelli glob da includere (es. [“/blog/**”])
Modelli glob da escludere (es. [“/admin/**”])
crawl_website
Scopri ed estrai autonomamente interi siti web seguendo i link.URL di partenza per il crawl
Numero massimo di pagine da esplorare
Modelli glob da includere (es. [”/**”] per tutti)
Modelli glob da escludere (es. [“/admin/**”])
Profondità massima da esplorare a partire da start_url
Includi URL esterni
Integrazione Agente LangChain
Crea agenti intelligenti che possono cercare ed estrarre dal web:Integrazione LangGraph
Crea flussi di lavoro complessi a più fasi con LangGraph:Casi d’Uso Avanzati
Arricchimento Dati
Arricchisci dati di fogli di calcolo con informazioni web:Scraping Prodotti E-commerce
Estrai dati di prodotti con parser specializzati:Audit SEO
Analizza interi siti web per SEO:Scraping Documentazione
Esplora ed estrai documentazione:Parser Specializzati
Olostep fornisce parser pre-costruiti per siti web popolari:@olostep/google-search- Risultati di ricerca Google
parser:
Gestione degli Errori
Migliori Pratiche
Usa il Batch Processing per Più URL
Usa il Batch Processing per Più URL
Quando estrai più di 3-5 URL, usa
scrape_batch invece di più chiamate scrape_website. Il batch processing è molto più veloce ed economico.Imposta Timeout Appropriati
Imposta Timeout Appropriati
Per siti pesanti di JavaScript, usa il parametro
wait_before_scraping (2000-5000ms è tipico). Questo assicura che il contenuto dinamico sia completamente caricato.Usa Parser Specializzati
Usa Parser Specializzati
Per siti web popolari (Amazon, LinkedIn, Google), usa i nostri parser pre-costruiti per ottenere dati strutturati automaticamente.
Filtra gli URL in Modo Efficiente
Filtra gli URL in Modo Efficiente
Quando usi
extract_urls o crawl_website, usa modelli glob per concentrarti sulle pagine rilevanti ed evitare elaborazioni inutili.Gestisci i Limiti di Frequenza
Gestisci i Limiti di Frequenza
Implementa il backoff esponenziale per errori di limite di frequenza. L’API gestisce automaticamente la maggior parte dei limiti di frequenza internamente.
Supporto
- Pacchetto PyPI: langchain-olostep
- Documentazione: docs.olostep.com
- Problemi: GitHub Issues
- Email: info@olostep.com
Risorse Correlate
Scrapes API
Scopri l’endpoint Scrapes
Batches API
Scopri l’endpoint Batches
Answers API
Scopri l’endpoint Answers
Maps API
Scopri l’endpoint Maps
Crawls API
Scopri l’endpoint Crawls
Python SDK
Esplora l’SDK Python
LangChain Website
Piattaforma LangChain