Vai al contenuto principale
Olostep è un’API per la ricerca, lo scraping e il crawling web — un’API per cercare, estrarre e strutturare i dati web. Questa guida mostra come utilizzare Olostep con gli Attori Apify per costruire pipeline di dati web affidabili end-to-end.

Cosa puoi costruire

Scrape Sito Web

Estrai contenuti da qualsiasi URL singolo in Markdown, HTML, JSON o Testo

Scraping di URL in Batch

Elabora grandi liste di URL in parallelo con output strutturati

Crea Crawl

Scopri e fai scraping delle pagine collegate per costruire dataset completi

Crea Mappa

Estrai tutti gli URL da un sito web (scoperta simile a una sitemap)

Risposte AI

Fai domande e ottieni risposte JSON strutturate con fonti

Inizio rapido

1) Installa Apify CLI

npm install -g apify-cli
apify --version

2) Ottieni la tua chiave API di Olostep

Dal Dashboard di Olostep → Chiavi API.

3) Esegui l’Attore Olostep localmente

cd olostep-tools/integrations/apify
apify run
Il file di input locale predefinito si trova in: olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json Esempio di input:
{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Distribuisci su Apify (cloud)

apify login
apify push
Quindi apri Apify Console → Attori → esegui l’attore con il tuo input desiderato.

Esegui in Apify Console (passo dopo passo)

  1. Apri il tuo Attore in Apify Console → Sorgente → Input.
  2. Nella scheda Manuale vedrai un campo visibile “Chiave API Olostep”. Incolla la tua chiave dal Dashboard di Olostep.
  3. Scegli un’operazione (predefinita “scrape”).
  4. Compila i campi rilevanti (per “scrape”, imposta “URL da Scrape”).
  5. Clicca Salva → Avvia.
  6. Quando l’esecuzione termina, apri la scheda Dataset per scaricare i risultati (JSON/CSV/Excel).
Note:
  • Per “URL da Scrape”, puoi incollare con o senza schema. Se mancante, l’attore premette automaticamente https://.
  • Se un sito è pesante in JavaScript e vedi un timeout, imposta “Attendi Prima di Scrape” a 2000–5000 ms e esegui di nuovo.

Operazioni disponibili

Scrape Sito Web

Estrai contenuti da un singolo URL. Ottimo per l’automazione a livello di pagina.
operation
constant
predefinito:"scrape"
Deve essere “scrape”
apiKey
string
obbligatorio
La tua chiave API di Olostep (Bearer)
url_to_scrape
string
obbligatorio
L’URL da scrape (deve includere http:// o https://)
formats
dropdown
predefinito:"markdown"
Uno di: Markdown, HTML, JSON, Testo
country
string
Codice paese opzionale (es., “US”, “GB”, “CA”)
wait_before_scraping
integer
Tempo di attesa opzionale in ms per il rendering JavaScript (0–10000)
parser
string
ID parser opzionale (es., “@olostep/amazon-product”)
Campi di output:
  • id, url, status, formats
  • markdown_content / html_content / json_content / text_content
  • URL ospitati (se disponibili), metadati della pagina

Scraping di URL in Batch

Elabora molti URL contemporaneamente con formattazione e struttura coerenti.
operation
constant
predefinito:"batch"
Deve essere “batch”
apiKey
string
obbligatorio
La tua chiave API di Olostep
batch_array
text
obbligatorio
Array JSON di oggetti con url e custom_id opzionale
Esempio: [{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
predefinito:"markdown"
Uno di: Markdown, HTML, JSON, Testo
country
string
Codice paese opzionale
wait_before_scraping
integer
Tempo di attesa opzionale in ms per siti JS
parser
string
ID parser opzionale
Campi di output:
  • batch_id, status, total_urls, created_at, formats, country, parser, urls[]

Crea Crawl

Segui i link e fai scraping di più pagine da un URL di partenza.
operation
constant
predefinito:"crawl"
Deve essere “crawl”
apiKey
string
obbligatorio
La tua chiave API di Olostep
start_url
string
obbligatorio
URL di partenza per il crawl
max_pages
integer
predefinito:"10"
Pagine massime da crawlare
Segui i link sulla pagina
formats
dropdown
predefinito:"markdown"
Uno di: Markdown, HTML, JSON, Testo
country
string
Codice paese opzionale
parser
string
ID parser opzionale
Campi di output:
  • crawl_id, object, status, start_url, max_pages, follow_links, created, formats

Crea Mappa

Scopri tutti gli URL su un sito web e preparati per lo scraping batch successivo.
operation
constant
predefinito:"map"
Deve essere “map”
apiKey
string
obbligatorio
La tua chiave API di Olostep
website_url
string
obbligatorio
Il sito web da mappare
search_query
string
Filtro query opzionale
top_n
integer
Limita il numero di URL
include_patterns
string
Includi glob, es. “/products/**”
exclude_patterns
string
Escludi glob, es. “/admin/**”
Campi di output:
  • map_id, object, website_url, total_urls, urls[], search_query, top_n

Esempi di JSON da copiare e incollare (Console → Input → JSON)

Scrape

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

Batch

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

Crawl

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

Mappa

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

Risposte

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "Qual è l'ultimo round di finanziamento di Olostep? Fornisci azienda, round, data, importo.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

Esempi di flussi di lavoro

  1. Crea Mappa → include “/products/**”
  2. Analizza URL → costruisci array batch
  3. Scraping di URL in Batch → formati: JSON
  4. Invia a Google Sheets / Airtable
  1. Pianifica attore (giornaliero)
  2. Scrape Sito Web → formati: Markdown
  3. Riassumi con LLM
  4. Notifica su Slack
  1. Crea Crawl (blog/docs)
  2. Memorizza output in Notion
  3. Aggiorna settimanalmente con Pianificazione

Parser specializzati

Olostep supporta parser per strutturare dati per siti popolari.

Prodotto Amazon

@olostep/amazon-product → titolo, prezzo, valutazione, recensioni, immagini, varianti

Ricerca Google

@olostep/google-search → risultati, titoli, snippet, URL

Google Maps

@olostep/google-maps → informazioni aziendali, recensioni, valutazioni, posizione

Altri Parser

Esplora estrattori di email, cercatori di handle sociali, estrattori di link di calendario e altro

Best practices

Più veloce, economico, facile da monitorare e rispettare i limiti di velocità.
Siti pesanti in JS: aumenta wait_before_scraping (es., 2000–5000ms).
Evita compiti non necessari — controlla i cambiamenti prima, mantieni lo stato di deduplicazione.
Usa output ospitati per bypassare i limiti di dimensione del payload nei flussi Apify.
Batch/Crawl/Map restituiscono ID; recuperali più tardi o concatenali con un ritardo.
Se vedi un 504 o un timeout transitorio, l’attore ritenta automaticamente una volta con un breve tempo di attesa.
Puoi anche impostare “Attendi Prima di Scrape” a 2000–5000 ms per pagine pesanti in JS.

Risoluzione dei problemi

  • Controlla la chiave API dal dashboard
  • Rimuovi spazi finali
  • Reinserisci nel modulo di input di Apify
  • Aumenta il tempo di attesa
  • Verifica che l’URL sia pubblico / non protetto da login
  • Prova un formato di output diverso
  • Distribuisci le esecuzioni tramite pianificazione
  • Preferisci batch per molti URL
  • Aggiorna il piano Olostep se necessario
  • Prova il parametro paese
  • Regola attesa e parser
  • Contatta il supporto per assistenza

Prezzi

Olostep addebita in base all’uso dell’API (indipendentemente da Apify):
  • Scrapes → per scrape
  • Batches → per URL
  • Crawls → per pagina
  • Maps → per operazione
Vedi https://olostep.com/pricing.

Sicurezza

  • La tua chiave API viene inviata come token Bearer a runtime.
  • Non commettere chiavi nel controllo versione; Apify memorizza gli input nel Key-Value Store.
  • Nello sviluppo locale, conserva le chiavi in storage/key_value_stores/default/INPUT.json (gitignored).

Risorse correlate

Supporto