Attraverso l’endpointDocumentation Index
Fetch the complete documentation index at: https://docs.olostep.com/llms.txt
Use this file to discover all available pages before exploring further.
/v1/scrapes di Olostep puoi estrarre Markdown, HTML, testo, screenshot o JSON strutturato da qualsiasi URL in tempo reale.
- Produce markdown pulito, dati strutturati, screenshot o HTML
- Estrai JSON tramite Parser o estrazione LLM
- Gestisce contenuti dinamici: siti con rendering JS, flussi di login tramite azioni, PDF
Scraping di un URL
Usa l’endpoint/v1/scrapes per eseguire lo scraping di un singolo URL e scegliere i formati di output.
Installazione
Utilizzo
Puoi usare l’endpoint per eseguire lo scraping di un singolo URL e scegliere i formati di output. I parametri obbligatori sonourl_to_scrape e formats.
Altri parametri comuni sono wait_before_scraping (in millisecondi), remove_css_selectors (default, nessuno, o un array di selettori), e country.
Risposta
L’API restituisce un oggettoscrape in risposta.
Lo scrape ha alcune proprietà come id e result.
L’oggetto result ha i seguenti campi (secondo il parametro formats alcuni potrebbero essere nulli):
html_content: il contenuto HTML della pagina. Passaformats: ["html"]per ottenerlo.markdown_content: il contenuto MD della pagina. Passaformats: ["markdown"]per ottenerlo.text_content: il contenuto testuale della pagina. Passaformats: ["text"]per ottenerlo.json_content: il contenuto JSON della pagina. Passaformats: ["json"]per ottenerlo e fornisci anche un parametroparserollm_extract.screenshot_hosted_url: l’URL ospitato dello screenshot.html_hosted_url: l’URL ospitato del contenuto HTMLmarkdown_hosted_url: l’URL ospitato del contenuto Markdownjson_hosted_url: l’URL ospitato del contenuto JSONtext_hosted_url: l’URL ospitato del contenuto testualelinks_on_page: i link sulla paginapage_metadata: i metadati della pagina
Formati di Scrape
Scegli uno o più formati di output tramiteformats:
markdown: markdown compatibile con LLMhtml: HTML pulitotext: testo semplicejson: output strutturato (tramite parser o llm_extract)raw_pdf: byte PDF grezzi estratti a un URL ospitatoscreenshot: impostato tramite azioni per catturare uno screenshot e restituire un URL ospitato
result come campi *_content e anche un *_hosted_url.
Estrazione di dati strutturati
Puoi estrarre JSON strutturato in due modi: usando i Parser o l’estrazione LLM.Usare un Parser (consigliato per la scalabilità)
Definisciformats: ["json"] e fornisci un id del parser.
Usare l’estrazione LLM (schema e/o prompt)
Forniscillm_extract con uno Schema JSON (schema) e/o un’istruzione in linguaggio naturale (prompt). Puoi passare entrambi i parametri, ma se entrambi sono forniti, schema ha la precedenza.
In alternativa, se passi solo un prompt, l’LLM estrarrà i dati basandosi sul prompt e deciderà autonomamente la struttura dei dati.
result.json_content restituisce un JSON sotto forma di stringa. Analizzalo nel tuo codice se hai bisogno di un oggetto.
Interagire con la pagina tramite Azioni
Esegui azioni prima dello scraping per interagire con siti dinamici. Azioni supportate:waitconmillisecondsclickconselectorfill_inputconselectorevaluescrollcondirectioneamount
wait prima/dopo altre azioni per permettere il caricamento della pagina.
Esempio
markdown_content).
Casi d’Uso
Di seguito sono riportate alcune applicazioni pratiche dei clienti che utilizzano l’endpoint/scrapes.
Analisi dei Contenuti & Ricerca
- Analisi Competitiva: Estrai dettagli sui prodotti, prezzi e caratteristiche dai siti web dei concorrenti
- Ricerca di Mercato: Analizza landing page, descrizioni dei prodotti e testimonianze dei clienti
- Ricerca Accademica: Raccogli dati specifici da pubblicazioni scientifiche o portali di ricerca
- Documentazione Legale: Estrai studi di casi, regolamenti o precedenti legali da siti ufficiali
E-commerce & Retail
- Strategie di Prezzi Dinamici: Ottieni prezzi dei prodotti in tempo reale dai negozi concorrenti
- Gestione delle Informazioni sui Prodotti: Estrai specifiche dettagliate e descrizioni
- Monitoraggio Stock/Inventario: Controlla la disponibilità dei prodotti presso altri rivenditori
- Analisi delle Recensioni: Raccogli feedback e sentiment dei consumatori per prodotti specifici
Marketing & Creazione di Contenuti
- Curazione di Contenuti: Estrai articoli e post di blog rilevanti per newsletter
- Analisi SEO: Esamina l’uso delle parole chiave dei concorrenti, le meta descrizioni e la struttura delle pagine
- Generazione di Lead: Estrai informazioni di contatto da directory aziendali o pagine aziendali
- Ricerca Influencer: Raccogli metriche di coinvolgimento e stili di contenuto dai profili degli influencer
- Generazione Social Media Personalizzata: Crea marketing sui social media alimentato da AI analizzando i siti web dei clienti
Applicazioni di Dati
- Raccolta Dati per Addestramento AI: Raccogli esempi specifici per modelli di machine learning
- Costruzione di Basi di Conoscenza Personalizzate: Estrai documentazione o istruzioni da siti software
- Archivi di Dati Storici: Conserva il contenuto del sito web in momenti specifici nel tempo
- Estrazione di Dati Strutturati: Trasforma il contenuto web in dataset formattati per l’analisi
Monitoraggio & Avvisi
- Monitoraggio della Conformità Normativa: Traccia le modifiche ai siti web legali o normativi
- Gestione delle Crisi: Monitora i siti di notizie per menzioni di eventi o organizzazioni specifiche
- Tracciamento degli Eventi: Estrai dettagli su eventi imminenti da siti di luoghi o organizzatori
- Monitoraggio dello Stato del Servizio: Controlla le pagine di stato del servizio per piattaforme o strumenti specifici
Editoria & Media
- Aggregazione di Notizie: Estrai notizie dell’ultima ora da fonti ufficiali
- Monitoraggio dei Media: Traccia argomenti specifici su siti di notizie
- Verifica dei Contenuti: Estrai informazioni per verificare affermazioni o dichiarazioni
- Estrazione Multimediale: Raccogli video, immagini o audio incorporati per librerie multimediali
Applicazioni Finanziarie
- Ricerca di Investimenti: Estrai bilanci o rapporti annuali dai siti web delle aziende
- Indicatori Economici: Raccogli dati economici da siti governativi o di istituzioni finanziarie
- Dati sulle Criptovalute: Estrai informazioni sui prezzi in tempo reale e sulla capitalizzazione di mercato
- Analisi delle Notizie Finanziarie: Monitora i siti di notizie finanziarie per segnali di mercato specifici
Applicazioni Tecniche
- Estrazione di Documentazione API: Raccogli documentazione tecnica per riferimento
- Test di Integrazione: Estrai elementi del sito web per verificare le integrazioni di terze parti
- Test di Accessibilità: Analizza la struttura del sito web per la conformità agli standard di accessibilità
- Creazione di Archivi Web: Cattura il contenuto completo del sito web per la conservazione storica
Scenari di Integrazione
- Sistemi CRM: Migliora i profili dei clienti con dati da siti aziendali o Linkedin
- Sistemi di Gestione dei Contenuti: Importa contenuti esterni rilevanti
- Strumenti di Business Intelligence: Integra dati interni con informazioni di mercato esterne
- Software di Gestione Progetti: Estrai specifiche o requisiti dai siti web dei clienti
- Dashboard Personalizzati: Visualizza i dati estratti insieme a metriche interne
Gestione degli Errori
Tutti gli errori seguono una struttura comune. Controllaerror.type e error.code per gestire programmaticamente:
| HTTP | error.type | error.code | Significato |
|---|---|---|---|
| 400 | invalid_request_error | dns_resolution_failed | Il dominio non esiste o l’URL contiene un errore di battitura. |
| 400 | invalid_request_error | invalid_url | L’URL è malformato. |
| 502 | invalid_request_error | tls_error | Il sito web ha un certificato TLS/SSL non valido o incompatibile. error.detail contiene il codice SSL di basso livello. |
| 504 | request_timeout | scrape_poll_timeout | Lo scraping non è stato completato entro il limite di attesa di ~55 secondi. |
Errore DNS (400)
Il dominio non si risolve. Controlla l’URL per errori di battitura.Errore TLS/SSL (502)
Il sito web di destinazione ha una configurazione HTTPS rotta o incompatibile.error.detail fornisce il codice di errore SSL specifico per la diagnostica; error.code è sempre tls_error.