Intégration Olostep + Apify

Olostep est une API de recherche, de scraping et de crawling Web — une API pour rechercher, extraire et structurer des données web. Ce guide montre comment utiliser Olostep avec les Acteurs Apify pour construire des pipelines de données web fiables de bout en bout.

Ce que vous pouvez construire

Scraper un site web

Extraire le contenu de n’importe quelle URL unique en Markdown, HTML, JSON ou Texte

Scraper des URLs par lot

Traiter de grandes listes d’URLs en parallèle avec des sorties structurées

Créer un Crawl

Découvrir et scraper des pages liées pour construire des ensembles de données complets

Créer une Carte

Extraire toutes les URLs d’un site web (découverte type sitemap)

Réponses alimentées par l'IA

Poser des questions et obtenir des réponses JSON structurées avec sources

Démarrage rapide

1) Installer Apify CLI

npm install -g apify-cli
apify --version

2) Obtenez votre clé API Olostep

Depuis le tableau de bord Olostep → Clés API.

3) Exécuter l’Acteur Olostep localement

cd olostep-tools/integrations/apify
apify run

Le fichier d’entrée local par défaut se trouve à : olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json Exemple d’entrée :

{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Déployer sur Apify (cloud)

apify login
apify push

Ensuite, ouvrez la console Apify → Acteurs → exécutez l’acteur avec votre entrée souhaitée.

Exécuter dans la console Apify (étape par étape)

Ouvrez votre Acteur dans la console Apify → Source → Entrée.
Dans l’onglet Manuel, vous verrez un champ visible “Clé API Olostep”. Collez votre clé depuis le tableau de bord Olostep.
Choisissez une opération (par défaut “scrape”).
Remplissez les champs pertinents (pour “scrape”, définissez “URL à scraper”).
Cliquez sur Enregistrer → Démarrer.
Lorsque l’exécution est terminée, ouvrez l’onglet Ensemble de données pour télécharger les résultats (JSON/CSV/Excel).

Notes :

Pour “URL à scraper”, vous pouvez coller avec ou sans schéma. Si manquant, l’acteur préfixe automatiquement https://.
Si un site est lourd en JavaScript et que vous voyez un délai d’attente, définissez “Attendre avant le scraping” à 2000–5000 ms et réexécutez.

Opérations disponibles

Scraper un site web

Extraire le contenu d’une URL unique. Idéal pour l’automatisation au niveau de la page.

operation

constant

défaut:"scrape"

Doit être “scrape”

apiKey

string

requis

Votre clé API Olostep (Bearer)

url_to_scrape

string

requis

L’URL à scraper (doit inclure http:// ou https://)

formats

dropdown

défaut:"markdown"

Un de : Markdown, HTML, JSON, Texte

country

string

Code pays optionnel (ex. “US”, “GB”, “CA”)

wait_before_scraping

integer

Temps d’attente optionnel en ms pour le rendu JavaScript (0–10000)

parser

string

ID de parseur optionnel (ex. “@olostep/amazon-product”)

Champs de sortie :

id, url, status, formats
markdown_content / html_content / json_content / text_content
URLs hébergées (si disponibles), métadonnées de la page

Scraper des URLs par lot

Traiter plusieurs URLs à la fois avec un formatage et une structure cohérents.

operation

constant

défaut:"batch"

Doit être “batch”

apiKey

string

requis

Votre clé API Olostep

batch_array

text

requis

Tableau JSON d’objets avec url et custom_id optionnel
Exemple : [{"url":"https://example.com","custom_id":"site1"}]

formats

dropdown

défaut:"markdown"

Un de : Markdown, HTML, JSON, Texte

country

string

Code pays optionnel

wait_before_scraping

integer

Temps d’attente optionnel en ms pour les sites JS

parser

string

ID de parseur optionnel

Champs de sortie :

batch_id, status, total_urls, created_at, formats, country, parser, urls[]

Créer un Crawl

Suivre les liens et scraper plusieurs pages à partir d’une URL de départ.

operation

constant

défaut:"crawl"

Doit être “crawl”

apiKey

string

requis

Votre clé API Olostep

start_url

string

requis

URL de départ pour le crawl

max_pages

integer

défaut:"10"

Nombre maximum de pages à crawler

follow_links

boolean

défaut:"true"

Suivre les liens sur la page

formats

dropdown

défaut:"markdown"

Un de : Markdown, HTML, JSON, Texte

country

string

Code pays optionnel

parser

string

ID de parseur optionnel

Champs de sortie :

crawl_id, object, status, start_url, max_pages, follow_links, created, formats

Créer une Carte

Découvrir toutes les URLs d’un site web et préparer pour un scraping par lot ultérieur.

operation

constant

défaut:"map"

Doit être “map”

apiKey

string

requis

Votre clé API Olostep

website_url

string

requis

Le site web à cartographier

search_query

string

Filtre de requête optionnel

top_n

integer

Limiter le nombre d’URLs

include_patterns

string

Inclure des glob(s), ex. “/products/**”

exclude_patterns

string

Exclure des glob(s), ex. “/admin/**”

Champs de sortie :

map_id, object, website_url, total_urls, urls[], search_query, top_n

Exemples JSON à copier-coller (Console → Entrée → JSON)

Scraper

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

Lot

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

Crawl

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

Carte

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

Réponses

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

Exemples de flux de travail

Découvrir et Scraper des Produits

Créer une Carte → inclure “/products/**”
Analyser les URLs → construire un tableau par lot
Scraper des URLs par lot → formats : JSON
Envoyer à Google Sheets / Airtable

Surveillance de contenu quotidienne

Programmer l’acteur (quotidiennement)
Scraper un site web → formats : Markdown
Résumer avec LLM
Notifier sur Slack

Base de connaissances des concurrents

Créer un Crawl (blog/docs)
Stocker les sorties dans Notion
Rafraîchir chaque semaine avec Schedule

Parseurs spécialisés

Olostep prend en charge les parseurs pour structurer les données pour les sites populaires.

Produit Amazon

@olostep/amazon-product → titre, prix, note, avis, images, variantes

Recherche Google

@olostep/google-search → résultats, titres, extraits, URLs

Google Maps

@olostep/google-maps → infos entreprise, avis, notes, emplacement

Plus de Parseurs

Explorez les extracteurs d’emails, les chercheurs de réseaux sociaux, les extracteurs de liens de calendrier, et plus

Bonnes pratiques

Préférez le lot pour 3+ URLs

Plus rapide, moins cher, plus facile à surveiller et respecte les limites de taux.

Utilisez des temps d'attente appropriés

Sites lourds en JS : augmentez wait_before_scraping (ex., 2000–5000ms).

Filtrer avant de scraper

Évitez les tâches inutiles — vérifiez les changements d’abord, gardez l’état de déduplication.

Stocker le contenu volumineux via des URLs hébergées

Utilisez des sorties hébergées pour contourner les limites de taille de charge utile dans les flux Apify.

Traitez les opérations asynchrones comme longues

Batch/Crawl/Map retournent des IDs ; récupérez plus tard ou enchaînez avec un délai.

Gérez proprement les délais d'attente transitoires

Si vous voyez un 504 ou un délai d’attente transitoire, l’acteur réessaie automatiquement une fois avec un court temps d’attente.
Vous pouvez également définir “Attendre avant le scraping” à 2000–5000 ms pour les pages lourdes en JS.

Dépannage

Échec de l'authentification

Vérifiez la clé API depuis le tableau de bord
Supprimez les espaces de fin
Ré-entrez dans le formulaire d’entrée Apify

Contenu vide

Augmentez le temps d’attente
Vérifiez que l’URL est publique / non protégée par connexion
Essayez un format de sortie différent

Limite de taux dépassée

Espacez les exécutions via un programme
Préférez le lot pour de nombreuses URLs
Mettez à niveau le plan Olostep si nécessaire

Sites bloqués ou dynamiques

Essayez le paramètre de pays
Ajustez l’attente et le parseur
Contactez le support pour des conseils

Tarification

Olostep facture par utilisation de l’API (indépendamment d’Apify) :

Scrapes → par scrape
Lots → par URL
Crawls → par page
Cartes → par opération

Voir https://olostep.com/pricing.

Sécurité

Votre clé API est envoyée en tant que jeton Bearer à l’exécution.
Ne commettez pas de clés dans le contrôle de version ; Apify stocke les entrées dans Key‑Value Store.
En développement local, gardez les clés dans storage/key_value_stores/default/INPUT.json (gitignoré).

Ressources associées

API Scrapes

Extraire Markdown, HTML, texte ou JSON structuré compatible LLM depuis n’importe quelle URL.

API Batches

Traitez jusqu’à 10k URLs simultanément et récupérez les résultats plus tard.

API Crawls

Découvrez et scrapez récursivement le contenu d’un site.

API Maps

Obtenez toutes les URLs d’un site web pour préparer des scrapes par lot.

Support

Site Web Apify

Plateforme Apify

Docs Apify

Documentation de la plateforme & SDK Apify

Documentation

Documentation complète de l’API

Email de Support

info@olostep.com

Commencer

Fonctionnalités

Intégrations

Documentation Index

​Ce que vous pouvez construire

Scraper un site web

Scraper des URLs par lot

Créer un Crawl

Créer une Carte

Réponses alimentées par l'IA

​Démarrage rapide

​1) Installer Apify CLI

​2) Obtenez votre clé API Olostep

​3) Exécuter l’Acteur Olostep localement

​4) Déployer sur Apify (cloud)

​Exécuter dans la console Apify (étape par étape)

​Opérations disponibles

​Scraper un site web

​Scraper des URLs par lot

​Créer un Crawl

​Créer une Carte

​Exemples JSON à copier-coller (Console → Entrée → JSON)

​Scraper

​Lot

​Crawl

​Carte

​Réponses

​Exemples de flux de travail

​Parseurs spécialisés

Produit Amazon

Recherche Google

Google Maps

Plus de Parseurs

​Bonnes pratiques

​Dépannage

​Tarification

​Sécurité

​Ressources associées

API Scrapes

API Batches

API Crawls

API Maps

​Support

Site Web Apify

Docs Apify

Documentation

Email de Support

Ce que vous pouvez construire

Démarrage rapide

1) Installer Apify CLI

2) Obtenez votre clé API Olostep

3) Exécuter l’Acteur Olostep localement

4) Déployer sur Apify (cloud)

Exécuter dans la console Apify (étape par étape)

Opérations disponibles

Scraper un site web

Scraper des URLs par lot

Créer un Crawl

Créer une Carte

Exemples JSON à copier-coller (Console → Entrée → JSON)

Scraper

Lot

Crawl

Carte

Réponses

Exemples de flux de travail

Parseurs spécialisés

Bonnes pratiques

Dépannage

Tarification

Sécurité

Ressources associées

Support