Passer au contenu principal
Olostep est une API de recherche, de scraping et de crawling web — une API pour rechercher, extraire et structurer les données web. Ce guide montre comment utiliser Olostep avec Apify Actors pour construire des pipelines de données web fiables de bout en bout.

Ce que vous pouvez construire

Scraper un site web

Extraire le contenu de n’importe quelle URL en Markdown, HTML, JSON ou Texte

Scraper des URLs en lot

Traiter de grandes listes d’URLs en parallèle avec des sorties structurées

Créer un Crawl

Découvrir et scraper les pages liées pour construire des ensembles de données complets

Créer une Carte

Extraire toutes les URLs d’un site web (découverte type sitemap)

Réponses alimentées par l'IA

Poser des questions et obtenir des réponses JSON structurées avec sources

Démarrage rapide

1) Installer Apify CLI

npm install -g apify-cli
apify --version

2) Obtenez votre clé API Olostep

Depuis le tableau de bord Olostep → Clés API.

3) Exécutez l’Actor Olostep localement

cd olostep-tools/integrations/apify
apify run
Le fichier d’entrée local par défaut se trouve à : olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json Exemple d’entrée :
{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Déployer sur Apify (cloud)

apify login
apify push
Ensuite, ouvrez la console Apify → Actors → exécutez l’actor avec votre entrée souhaitée.

Exécuter dans la console Apify (étape par étape)

  1. Ouvrez votre Actor dans la console Apify → Source → Input.
  2. Dans l’onglet Manuel, vous verrez un champ visible “Clé API Olostep”. Collez votre clé depuis le tableau de bord Olostep.
  3. Choisissez une opération (par défaut “scrape”).
  4. Remplissez les champs pertinents (pour “scrape”, définissez “URL à scraper”).
  5. Cliquez sur Enregistrer → Démarrer.
  6. Lorsque l’exécution est terminée, ouvrez l’onglet Dataset pour télécharger les résultats (JSON/CSV/Excel).
Remarques :
  • Pour “URL à scraper”, vous pouvez coller avec ou sans schéma. S’il manque, l’actor préfixe automatiquement https://.
  • Si un site est lourd en JavaScript et que vous voyez un délai d’attente, définissez “Attendre avant de scraper” à 2000–5000 ms et exécutez à nouveau.

Opérations disponibles

Scraper un site web

Extraire le contenu d’une seule URL. Idéal pour l’automatisation au niveau de la page.
operation
constant
défaut:"scrape"
Doit être “scrape”
apiKey
string
requis
Votre clé API Olostep (Bearer)
url_to_scrape
string
requis
L’URL à scraper (doit inclure http:// ou https://)
formats
dropdown
défaut:"markdown"
Un parmi : Markdown, HTML, JSON, Texte
country
string
Code pays optionnel (ex. “US”, “GB”, “CA”)
wait_before_scraping
integer
Temps d’attente optionnel en ms pour le rendu JavaScript (0–10000)
parser
string
ID de parser optionnel (ex. “@olostep/amazon-product”)
Champs de sortie :
  • id, url, statut, formats
  • markdown_content / html_content / json_content / text_content
  • URLs hébergées (si disponibles), métadonnées de la page

Scraper des URLs en lot

Traiter de nombreuses URLs à la fois avec un formatage et une structure cohérents.
operation
constant
défaut:"batch"
Doit être “batch”
apiKey
string
requis
Votre clé API Olostep
batch_array
text
requis
Tableau JSON d’objets avec url et custom_id optionnel
Exemple : [{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
défaut:"markdown"
Un parmi : Markdown, HTML, JSON, Texte
country
string
Code pays optionnel
wait_before_scraping
integer
Temps d’attente optionnel en ms pour les sites JS
parser
string
ID de parser optionnel
Champs de sortie :
  • batch_id, statut, total_urls, created_at, formats, pays, parser, urls[]

Créer un Crawl

Suivre les liens et scraper plusieurs pages à partir d’une URL de départ.
operation
constant
défaut:"crawl"
Doit être “crawl”
apiKey
string
requis
Votre clé API Olostep
start_url
string
requis
URL de départ pour le crawl
max_pages
integer
défaut:"10"
Nombre maximum de pages à crawler
Suivre les liens sur la page
formats
dropdown
défaut:"markdown"
Un parmi : Markdown, HTML, JSON, Texte
country
string
Code pays optionnel
parser
string
ID de parser optionnel
Champs de sortie :
  • crawl_id, objet, statut, start_url, max_pages, follow_links, created, formats

Créer une Carte

Découvrir toutes les URLs d’un site web et préparer pour un scraping en lot ultérieur.
operation
constant
défaut:"map"
Doit être “map”
apiKey
string
requis
Votre clé API Olostep
website_url
string
requis
Le site web à cartographier
search_query
string
Filtre de requête optionnel
top_n
integer
Limiter le nombre d’URLs
include_patterns
string
Inclure des glob(s), ex. “/products/**”
exclude_patterns
string
Exclure des glob(s), ex. “/admin/**”
Champs de sortie :
  • map_id, objet, website_url, total_urls, urls[], search_query, top_n

Exemples JSON à copier-coller (Console → Input → JSON)

Scraper

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

Lot

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

Crawl

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

Carte

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

Réponses

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

Exemples de flux de travail

  1. Créer une Carte → inclure “/products/**”
  2. Analyser les URLs → construire un tableau de lot
  3. Scraper des URLs en lot → formats : JSON
  4. Envoyer à Google Sheets / Airtable
  1. Programmer l’actor (quotidiennement)
  2. Scraper un site web → formats : Markdown
  3. Résumer avec LLM
  4. Notifier sur Slack
  1. Créer un Crawl (blog/docs)
  2. Stocker les sorties dans Notion
  3. Rafraîchir chaque semaine avec Schedule

Parseurs spécialisés

Olostep prend en charge les parseurs pour structurer les données pour les sites populaires.

Produit Amazon

@olostep/amazon-product → titre, prix, note, avis, images, variantes

Recherche Google

@olostep/google-search → résultats, titres, extraits, URLs

Google Maps

@olostep/google-maps → infos entreprise, avis, notes, localisation

Plus de Parseurs

Explorez les extracteurs d’emails, les chercheurs de réseaux sociaux, les extracteurs de liens de calendrier, et plus encore

Bonnes pratiques

Plus rapide, moins cher, plus facile à surveiller et respecte les limites de taux.
Sites lourds en JS : augmentez wait_before_scraping (ex. 2000–5000ms).
Évitez les tâches inutiles — vérifiez les changements d’abord, gardez l’état de déduplication.
Utilisez des sorties hébergées pour contourner les limites de taille de charge utile dans les flux Apify.
Batch/Crawl/Map retournent des IDs; récupérez plus tard ou enchaînez avec un délai.
Si vous voyez un 504 ou un délai d’attente transitoire, l’actor réessaie automatiquement une fois avec un court temps d’attente.
Vous pouvez également définir “Attendre avant de scraper” à 2000–5000 ms pour les pages lourdes en JS.

Dépannage

  • Vérifiez la clé API depuis le tableau de bord
  • Supprimez les espaces de fin
  • Saisissez à nouveau dans le formulaire d’entrée Apify
  • Augmentez le temps d’attente
  • Vérifiez que l’URL est publique / non protégée par connexion
  • Essayez un format de sortie différent
  • Espacer les exécutions via un programme
  • Préférez le lot pour de nombreuses URLs
  • Mettez à niveau le plan Olostep si nécessaire
  • Essayez le paramètre de pays
  • Ajustez l’attente et le parseur
  • Contactez le support pour des conseils

Tarification

Olostep facture par utilisation de l’API (indépendamment d’Apify) :
  • Scrapes → par scrape
  • Lots → par URL
  • Crawls → par page
  • Maps → par opération
Voir https://olostep.com/pricing.

Sécurité

  • Votre clé API est envoyée en tant que jeton Bearer à l’exécution.
  • Ne pas commettre de clés dans le contrôle de version ; Apify stocke les entrées dans le Key‑Value Store.
  • En développement local, gardez les clés dans storage/key_value_stores/default/INPUT.json (gitignored).

Ressources associées

Support