Vai al contenuto principale
Olostep è un’API per la ricerca, lo scraping e il crawling sul Web — un’API per cercare, estrarre e strutturare dati web. Questa guida mostra come utilizzare Olostep con gli Attori di Apify per costruire pipeline di dati web affidabili end-to-end.

Cosa puoi costruire

Scrape Website

Estrai contenuti da qualsiasi singolo URL in Markdown, HTML, JSON o Testo

Batch Scrape URLs

Processa grandi liste di URL in parallelo con output strutturati

Create Crawl

Scopri e fai scraping delle pagine collegate per costruire dataset completi

Create Map

Estrai tutti gli URL da un sito web (scoperta tipo sitemap)

AI-powered Answers

Fai domande e ottieni risposte strutturate in JSON con fonti

Inizio rapido

1) Installa Apify CLI

npm install -g apify-cli
apify --version

2) Ottieni la tua chiave API di Olostep

Dal Dashboard di Olostep → Chiavi API.

3) Esegui l’Attore Olostep localmente

cd olostep-tools/integrations/apify
apify run
Il file di input locale predefinito si trova in: olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json Esempio di input:
{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Distribuisci su Apify (cloud)

apify login
apify push
Quindi apri la Console di Apify → Attori → esegui l’attore con l’input desiderato.

Esegui nella Console di Apify (passo dopo passo)

  1. Apri il tuo Attore nella Console di Apify → Sorgente → Input.
  2. Nella scheda Manuale vedrai un campo visibile “Olostep API Key”. Incolla la tua chiave dal Dashboard di Olostep.
  3. Scegli un’operazione (predefinito “scrape”).
  4. Compila i campi pertinenti (per “scrape”, imposta “URL to Scrape”).
  5. Clicca Salva → Avvia.
  6. Quando l’esecuzione termina, apri la scheda Dataset per scaricare i risultati (JSON/CSV/Excel).
Note:
  • Per “URL to Scrape”, puoi incollare con o senza schema. Se manca, l’attore premette automaticamente https://.
  • Se un sito è pesante in JavaScript e vedi un timeout, imposta “Wait Before Scraping” a 2000–5000 ms e riprova.

Operazioni disponibili

Scrape Website

Estrai contenuti da un singolo URL. Ottimo per l’automazione a livello di pagina.
operation
constant
predefinito:"scrape"
Deve essere “scrape”
apiKey
string
obbligatorio
La tua chiave API di Olostep (Bearer)
url_to_scrape
string
obbligatorio
L’URL da fare scraping (deve includere http:// o https://)
formats
dropdown
predefinito:"markdown"
Uno di: Markdown, HTML, JSON, Testo
country
string
Codice paese opzionale (es., “US”, “GB”, “CA”)
wait_before_scraping
integer
Tempo di attesa opzionale in ms per il rendering JavaScript (0–10000)
parser
string
ID parser opzionale (es., “@olostep/amazon-product”)
Campi di output:
  • id, url, status, formats
  • markdown_content / html_content / json_content / text_content
  • URL ospitati (se disponibili), metadati della pagina

Batch Scrape URLs

Processa molti URL contemporaneamente con formattazione e struttura coerenti.
operation
constant
predefinito:"batch"
Deve essere “batch”
apiKey
string
obbligatorio
La tua chiave API di Olostep
batch_array
text
obbligatorio
Array JSON di oggetti con url e custom_id opzionale
Esempio: [{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
predefinito:"markdown"
Uno di: Markdown, HTML, JSON, Testo
country
string
Codice paese opzionale
wait_before_scraping
integer
Tempo di attesa opzionale in ms per siti JS
parser
string
ID parser opzionale
Campi di output:
  • batch_id, status, total_urls, created_at, formats, country, parser, urls[]

Create Crawl

Segui i link e fai scraping di più pagine da un URL iniziale.
operation
constant
predefinito:"crawl"
Deve essere “crawl”
apiKey
string
obbligatorio
La tua chiave API di Olostep
start_url
string
obbligatorio
URL iniziale per il crawl
max_pages
integer
predefinito:"10"
Pagine massime da fare crawling. Imposta a 1 per fare scraping solo dell’URL iniziale.
formats
dropdown
predefinito:"markdown"
Uno di: Markdown, HTML, JSON, Testo
country
string
Codice paese opzionale
parser
string
ID parser opzionale
Campi di output:
  • crawl_id, object, status, start_url, max_pages, created, formats

Create Map

Scopri tutti gli URL su un sito web e preparati per uno scraping batch successivo.
operation
constant
predefinito:"map"
Deve essere “map”
apiKey
string
obbligatorio
La tua chiave API di Olostep
website_url
string
obbligatorio
Il sito web da mappare
search_query
string
Filtro query opzionale
top_n
integer
Limita il numero di URL
include_patterns
string
Includi glob(s), es. “/products/**”
exclude_patterns
string
Escludi glob(s), es. “/admin/**”
Campi di output:
  • map_id, object, website_url, total_urls, urls[], search_query, top_n

Esempi JSON da copiare e incollare (Console → Input → JSON)

Scrape

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

Batch

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

Crawl

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "formats": "markdown"
}

Map

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

Answers

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

Esempi di flussi di lavoro

  1. Crea Mappa → includi “/products/**”
  2. Analizza URL → costruisci array batch
  3. Batch Scrape URLs → formati: JSON
  4. Invia a Google Sheets / Airtable
  1. Pianifica attore (giornaliero)
  2. Scrape Website → formati: Markdown
  3. Riassumi con LLM
  4. Notifica su Slack
  1. Crea Crawl (blog/docs)
  2. Memorizza output in Notion
  3. Aggiorna settimanalmente con Pianificazione

Parser specializzati

Olostep supporta parser per strutturare dati per siti popolari.

Prodotto Amazon

@olostep/amazon-product → titolo, prezzo, valutazione, recensioni, immagini, varianti

Ricerca Google

@olostep/google-search → risultati, titoli, frammenti, URL

Google Maps

@olostep/google-maps → informazioni aziendali, recensioni, valutazioni, posizione

Altri Parser

Esplora estrattori di email, trovatori di handle social, estrattori di link di calendario e altro

Migliori pratiche

Più veloce, economico, più facile da monitorare e rispettare i limiti di velocità.
Siti pesanti in JS: aumenta wait_before_scraping (es., 2000–5000ms).
Evita compiti non necessari — controlla prima i cambiamenti, mantieni lo stato di deduplicazione.
Usa output ospitati per superare i limiti di dimensione del payload nei flussi Apify.
Batch/Crawl/Map restituiscono ID; recuperali più tardi o concatenali con un ritardo.
Se vedi un 504 o un timeout transitorio, l’attore riprova automaticamente una volta con un breve tempo di attesa.
Puoi anche impostare “Wait Before Scraping” a 2000–5000 ms per pagine pesanti in JS.

Risoluzione dei problemi

  • Controlla la chiave API dal dashboard
  • Rimuovi spazi finali
  • Reinserisci nel modulo di input Apify
  • Aumenta il tempo di attesa
  • Verifica che l’URL sia pubblico / non bloccato da login
  • Prova un formato di output diverso
  • Distribuisci le esecuzioni tramite pianificazione
  • Preferisci batch per molti URL
  • Aggiorna il piano Olostep se necessario
  • Prova il parametro paese
  • Regola attesa e parser
  • Contatta il supporto per assistenza

Prezzi

Olostep addebita in base all’uso dell’API (indipendente da Apify):
  • Scrapes → per scraping
  • Batches → per URL
  • Crawls → per pagina
  • Maps → per operazione
Vedi https://www.olostep.com/pricing.

Sicurezza

  • La tua chiave API viene inviata come token Bearer a runtime.
  • Non commettere chiavi nel controllo versione; Apify memorizza gli input nel Key-Value Store.
  • Nello sviluppo locale, mantieni le chiavi in storage/key_value_stores/default/INPUT.json (gitignored).

Risorse correlate

Scrapes API

Estrai Markdown, HTML, testo o JSON strutturato compatibile con LLM da qualsiasi URL.

Batches API

Processa fino a 10k URL contemporaneamente e recupera i risultati più tardi.

Crawls API

Scopri e fai scraping ricorsivamente del contenuto di un sito.

Maps API

Ottieni tutti gli URL su un sito web per preparare scraping batch.

Supporto

Sito Web Apify

Piattaforma Apify

Documentazione Apify

Documentazione piattaforma & SDK Apify

Documentazione

Documentazione completa API

Email di Supporto