Passer au contenu principal
Olostep est une API de recherche, de scraping et de crawling Web — une API pour rechercher, extraire et structurer des données web. Ce guide montre comment utiliser Olostep avec les Acteurs Apify pour construire des pipelines de données web fiables de bout en bout.

Ce que vous pouvez construire

Scraper un site web

Extraire le contenu de n’importe quelle URL unique en Markdown, HTML, JSON ou Texte

Scraper des URLs par lot

Traiter de grandes listes d’URLs en parallèle avec des sorties structurées

Créer un Crawl

Découvrir et scraper des pages liées pour construire des ensembles de données complets

Créer une Carte

Extraire toutes les URLs d’un site web (découverte type sitemap)

Réponses alimentées par l'IA

Poser des questions et obtenir des réponses JSON structurées avec sources

Démarrage rapide

1) Installer Apify CLI

npm install -g apify-cli
apify --version

2) Obtenez votre clé API Olostep

Depuis le tableau de bord Olostep → Clés API.

3) Exécuter l’Acteur Olostep localement

cd olostep-tools/integrations/apify
apify run
Le fichier d’entrée local par défaut se trouve à : olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json Exemple d’entrée :
{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Déployer sur Apify (cloud)

apify login
apify push
Ensuite, ouvrez la console Apify → Acteurs → exécutez l’acteur avec votre entrée souhaitée.

Exécuter dans la console Apify (étape par étape)

  1. Ouvrez votre Acteur dans la console Apify → Source → Entrée.
  2. Dans l’onglet Manuel, vous verrez un champ visible “Clé API Olostep”. Collez votre clé depuis le tableau de bord Olostep.
  3. Choisissez une opération (par défaut “scrape”).
  4. Remplissez les champs pertinents (pour “scrape”, définissez “URL à scraper”).
  5. Cliquez sur Enregistrer → Démarrer.
  6. Lorsque l’exécution est terminée, ouvrez l’onglet Ensemble de données pour télécharger les résultats (JSON/CSV/Excel).
Notes :
  • Pour “URL à scraper”, vous pouvez coller avec ou sans schéma. Si manquant, l’acteur préfixe automatiquement https://.
  • Si un site est lourd en JavaScript et que vous voyez un délai d’attente, définissez “Attendre avant le scraping” à 2000–5000 ms et réexécutez.

Opérations disponibles

Scraper un site web

Extraire le contenu d’une URL unique. Idéal pour l’automatisation au niveau de la page.
operation
constant
défaut:"scrape"
Doit être “scrape”
apiKey
string
requis
Votre clé API Olostep (Bearer)
url_to_scrape
string
requis
L’URL à scraper (doit inclure http:// ou https://)
formats
dropdown
défaut:"markdown"
Un de : Markdown, HTML, JSON, Texte
country
string
Code pays optionnel (ex. “US”, “GB”, “CA”)
wait_before_scraping
integer
Temps d’attente optionnel en ms pour le rendu JavaScript (0–10000)
parser
string
ID de parseur optionnel (ex. “@olostep/amazon-product”)
Champs de sortie :
  • id, url, status, formats
  • markdown_content / html_content / json_content / text_content
  • URLs hébergées (si disponibles), métadonnées de la page

Scraper des URLs par lot

Traiter plusieurs URLs à la fois avec un formatage et une structure cohérents.
operation
constant
défaut:"batch"
Doit être “batch”
apiKey
string
requis
Votre clé API Olostep
batch_array
text
requis
Tableau JSON d’objets avec url et custom_id optionnel
Exemple : [{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
défaut:"markdown"
Un de : Markdown, HTML, JSON, Texte
country
string
Code pays optionnel
wait_before_scraping
integer
Temps d’attente optionnel en ms pour les sites JS
parser
string
ID de parseur optionnel
Champs de sortie :
  • batch_id, status, total_urls, created_at, formats, country, parser, urls[]

Créer un Crawl

Suivre les liens et scraper plusieurs pages à partir d’une URL de départ.
operation
constant
défaut:"crawl"
Doit être “crawl”
apiKey
string
requis
Votre clé API Olostep
start_url
string
requis
URL de départ pour le crawl
max_pages
integer
défaut:"10"
Nombre maximum de pages à crawler
Suivre les liens sur la page
formats
dropdown
défaut:"markdown"
Un de : Markdown, HTML, JSON, Texte
country
string
Code pays optionnel
parser
string
ID de parseur optionnel
Champs de sortie :
  • crawl_id, object, status, start_url, max_pages, follow_links, created, formats

Créer une Carte

Découvrir toutes les URLs d’un site web et préparer pour un scraping par lot ultérieur.
operation
constant
défaut:"map"
Doit être “map”
apiKey
string
requis
Votre clé API Olostep
website_url
string
requis
Le site web à cartographier
search_query
string
Filtre de requête optionnel
top_n
integer
Limiter le nombre d’URLs
include_patterns
string
Inclure des glob(s), ex. “/products/**”
exclude_patterns
string
Exclure des glob(s), ex. “/admin/**”
Champs de sortie :
  • map_id, object, website_url, total_urls, urls[], search_query, top_n

Exemples JSON à copier-coller (Console → Entrée → JSON)

Scraper

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

Lot

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

Crawl

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

Carte

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

Réponses

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

Exemples de flux de travail

  1. Créer une Carte → inclure “/products/**”
  2. Analyser les URLs → construire un tableau par lot
  3. Scraper des URLs par lot → formats : JSON
  4. Envoyer à Google Sheets / Airtable
  1. Programmer l’acteur (quotidiennement)
  2. Scraper un site web → formats : Markdown
  3. Résumer avec LLM
  4. Notifier sur Slack
  1. Créer un Crawl (blog/docs)
  2. Stocker les sorties dans Notion
  3. Rafraîchir chaque semaine avec Schedule

Parseurs spécialisés

Olostep prend en charge les parseurs pour structurer les données pour les sites populaires.

Produit Amazon

@olostep/amazon-product → titre, prix, note, avis, images, variantes

Recherche Google

@olostep/google-search → résultats, titres, extraits, URLs

Google Maps

@olostep/google-maps → infos entreprise, avis, notes, emplacement

Plus de Parseurs

Explorez les extracteurs d’emails, les chercheurs de réseaux sociaux, les extracteurs de liens de calendrier, et plus

Bonnes pratiques

Plus rapide, moins cher, plus facile à surveiller et respecte les limites de taux.
Sites lourds en JS : augmentez wait_before_scraping (ex., 2000–5000ms).
Évitez les tâches inutiles — vérifiez les changements d’abord, gardez l’état de déduplication.
Utilisez des sorties hébergées pour contourner les limites de taille de charge utile dans les flux Apify.
Batch/Crawl/Map retournent des IDs ; récupérez plus tard ou enchaînez avec un délai.
Si vous voyez un 504 ou un délai d’attente transitoire, l’acteur réessaie automatiquement une fois avec un court temps d’attente.
Vous pouvez également définir “Attendre avant le scraping” à 2000–5000 ms pour les pages lourdes en JS.

Dépannage

  • Vérifiez la clé API depuis le tableau de bord
  • Supprimez les espaces de fin
  • Ré-entrez dans le formulaire d’entrée Apify
  • Augmentez le temps d’attente
  • Vérifiez que l’URL est publique / non protégée par connexion
  • Essayez un format de sortie différent
  • Espacez les exécutions via un programme
  • Préférez le lot pour de nombreuses URLs
  • Mettez à niveau le plan Olostep si nécessaire
  • Essayez le paramètre de pays
  • Ajustez l’attente et le parseur
  • Contactez le support pour des conseils

Tarification

Olostep facture par utilisation de l’API (indépendamment d’Apify) :
  • Scrapes → par scrape
  • Lots → par URL
  • Crawls → par page
  • Cartes → par opération
Voir https://olostep.com/pricing.

Sécurité

  • Votre clé API est envoyée en tant que jeton Bearer à l’exécution.
  • Ne commettez pas de clés dans le contrôle de version ; Apify stocke les entrées dans Key‑Value Store.
  • En développement local, gardez les clés dans storage/key_value_stores/default/INPUT.json (gitignoré).

Ressources associées

API Scrapes

Extraire Markdown, HTML, texte ou JSON structuré compatible LLM depuis n’importe quelle URL.

API Batches

Traitez jusqu’à 10k URLs simultanément et récupérez les résultats plus tard.

API Crawls

Découvrez et scrapez récursivement le contenu d’un site.

API Maps

Obtenez toutes les URLs d’un site web pour préparer des scrapes par lot.

Support

Site Web Apify

Plateforme Apify

Docs Apify

Documentation de la plateforme & SDK Apify

Documentation

Documentation complète de l’API

Email de Support