Vai al contenuto principale
Olostep è un’API per la ricerca web, lo scraping e il crawling — un’API per cercare, estrarre e strutturare i dati web. Questa guida mostra come utilizzare Olostep con gli Attori di Apify per costruire pipeline di dati web affidabili end-to-end.

Cosa puoi costruire

Scrape Sito Web

Estrai contenuti da qualsiasi URL singolo in Markdown, HTML, JSON o Testo

Scrape URL in Batch

Elabora grandi liste di URL in parallelo con output strutturati

Crea Crawl

Scopri e fai scraping delle pagine collegate per costruire dataset completi

Crea Mappa

Estrai tutti gli URL da un sito web (scoperta simile a una sitemap)

Risposte con AI

Fai domande e ottieni risposte strutturate in JSON con fonti

Inizio rapido

1) Installa Apify CLI

npm install -g apify-cli
apify --version

2) Ottieni la tua chiave API di Olostep

Dal Dashboard di Olostep → Chiavi API.

3) Esegui l’Attore Olostep localmente

cd olostep-tools/integrations/apify
apify run
Il file di input locale predefinito si trova in: olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json Esempio di input:
{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Distribuisci su Apify (cloud)

apify login
apify push
Poi apri Apify Console → Attori → esegui l’attore con il tuo input desiderato.

Esegui in Apify Console (passo dopo passo)

  1. Apri il tuo Attore in Apify Console → Sorgente → Input.
  2. Nella scheda Manuale vedrai un campo visibile “Chiave API Olostep”. Incolla la tua chiave dal Dashboard di Olostep.
  3. Scegli un’operazione (predefinito “scrape”).
  4. Compila i campi pertinenti (per “scrape”, imposta “URL da Scrape”).
  5. Clicca Salva → Avvia.
  6. Quando l’esecuzione termina, apri la scheda Dataset per scaricare i risultati (JSON/CSV/Excel).
Note:
  • Per “URL da Scrape”, puoi incollare con o senza schema. Se manca, l’attore predispone automaticamente https://.
  • Se un sito è pesante in JavaScript e vedi un timeout, imposta “Attendi Prima di Scrape” a 2000–5000 ms e riprova.

Operazioni disponibili

Scrape Sito Web

Estrai contenuti da un singolo URL. Ottimo per l’automazione a livello di pagina.
operation
constant
predefinito:"scrape"
Deve essere “scrape”
apiKey
string
obbligatorio
La tua chiave API di Olostep (Bearer)
url_to_scrape
string
obbligatorio
L’URL da scrape (deve includere http:// o https://)
formats
dropdown
predefinito:"markdown"
Uno di: Markdown, HTML, JSON, Testo
country
string
Codice paese opzionale (es., “US”, “GB”, “CA”)
wait_before_scraping
integer
Tempo di attesa opzionale in ms per il rendering JavaScript (0–10000)
parser
string
ID parser opzionale (es., “@olostep/amazon-product”)
Campi di output:
  • id, url, status, formats
  • markdown_content / html_content / json_content / text_content
  • URL ospitati (se disponibili), metadati della pagina

Scrape URL in Batch

Elabora molti URL contemporaneamente con formattazione e struttura coerenti.
operation
constant
predefinito:"batch"
Deve essere “batch”
apiKey
string
obbligatorio
La tua chiave API di Olostep
batch_array
text
obbligatorio
Array JSON di oggetti con url e custom_id opzionale
Esempio: [{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
predefinito:"markdown"
Uno di: Markdown, HTML, JSON, Testo
country
string
Codice paese opzionale
wait_before_scraping
integer
Tempo di attesa opzionale in ms per siti JS
parser
string
ID parser opzionale
Campi di output:
  • batch_id, status, total_urls, created_at, formats, country, parser, urls[]

Crea Crawl

Segui i link e fai scraping di più pagine da un URL di partenza.
operation
constant
predefinito:"crawl"
Deve essere “crawl”
apiKey
string
obbligatorio
La tua chiave API di Olostep
start_url
string
obbligatorio
URL di partenza per il crawl
max_pages
integer
predefinito:"10"
Pagine massime da crawlare
Segui i link sulla pagina
formats
dropdown
predefinito:"markdown"
Uno di: Markdown, HTML, JSON, Testo
country
string
Codice paese opzionale
parser
string
ID parser opzionale
Campi di output:
  • crawl_id, object, status, start_url, max_pages, follow_links, created, formats

Crea Mappa

Scopri tutti gli URL su un sito web e preparati per scraping in batch successivi.
operation
constant
predefinito:"map"
Deve essere “map”
apiKey
string
obbligatorio
La tua chiave API di Olostep
website_url
string
obbligatorio
Il sito web da mappare
search_query
string
Filtro query opzionale
top_n
integer
Limita il numero di URL
include_patterns
string
Includi glob(s), es. “/products/**”
exclude_patterns
string
Escludi glob(s), es. “/admin/**”
Campi di output:
  • map_id, object, website_url, total_urls, urls[], search_query, top_n

Esempi JSON da copiare e incollare (Console → Input → JSON)

Scrape

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

Batch

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

Crawl

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

Mappa

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

Risposte

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

Esempi di flussi di lavoro

  1. Crea Mappa → include “/products/**”
  2. Analizza URL → costruisci array batch
  3. Scrape URL in Batch → formati: JSON
  4. Invia a Google Sheets / Airtable
  1. Pianifica attore (giornalmente)
  2. Scrape Sito Web → formati: Markdown
  3. Riassumi con LLM
  4. Notifica su Slack
  1. Crea Crawl (blog/docs)
  2. Memorizza output in Notion
  3. Aggiorna settimanalmente con Pianificazione

Parser specializzati

Olostep supporta parser per strutturare dati per siti popolari.

Prodotto Amazon

@olostep/amazon-product → titolo, prezzo, valutazione, recensioni, immagini, varianti

Ricerca Google

@olostep/google-search → risultati, titoli, frammenti, URL

Google Maps

@olostep/google-maps → info azienda, recensioni, valutazioni, posizione

Altri Parser

Esplora estrattori di email, cercatori di handle social, estrattori di link di calendario e altro

Best practices

Più veloce, economico, facile da monitorare e rispettare i limiti di velocità.
Siti pesanti in JS: aumenta wait_before_scraping (es., 2000–5000ms).
Evita compiti non necessari — controlla prima i cambiamenti, mantieni lo stato di deduplicazione.
Usa output ospitati per aggirare i limiti di dimensione del payload nei flussi Apify.
Batch/Crawl/Map restituiscono ID; recuperali più tardi o concatenali con un ritardo.
Se vedi un 504 o un timeout transitorio, l’attore riprova automaticamente una volta con un breve tempo di attesa.
Puoi anche impostare “Attendi Prima di Scrape” a 2000–5000 ms per pagine pesanti in JS.

Risoluzione dei problemi

  • Controlla la chiave API dal dashboard
  • Rimuovi spazi finali
  • Reinserisci nel modulo di input di Apify
  • Aumenta il tempo di attesa
  • Verifica che l’URL sia pubblico / non protetto da login
  • Prova un formato di output diverso
  • Distribuisci le esecuzioni tramite pianificazione
  • Preferisci batch per molti URL
  • Aggiorna il piano Olostep se necessario
  • Prova il parametro paese
  • Regola attesa e parser
  • Contatta il supporto per assistenza

Prezzi

Olostep addebita in base all’uso dell’API (indipendente da Apify):
  • Scrapes → per scrape
  • Batches → per URL
  • Crawls → per pagina
  • Maps → per operazione
Vedi https://olostep.com/pricing.

Sicurezza

  • La tua chiave API viene inviata come token Bearer a runtime.
  • Non commettere chiavi nel controllo di versione; Apify memorizza gli input nel Key‑Value Store.
  • Nello sviluppo locale, conserva le chiavi in storage/key_value_stores/default/INPUT.json (gitignorato).

Risorse correlate

API Scrapes

Estrai Markdown, HTML, testo o JSON strutturato adatto a LLM da qualsiasi URL.

API Batches

Elabora fino a 10k URL contemporaneamente e recupera i risultati in seguito.

API Crawls

Scopri e fai scraping ricorsivamente del contenuto di un sito.

API Maps

Ottieni tutti gli URL su un sito web per preparare scraping in batch.

Supporto

Sito Web Apify

Piattaforma Apify

Documentazione Apify

Documentazione piattaforma & SDK Apify

Documentazione

Documentazione completa API

Email di Supporto