Ce que vous pouvez construire
Scraper un site web
Extraire le contenu de n’importe quelle URL unique en Markdown, HTML, JSON ou Texte
Scraper des URLs par lot
Traiter de grandes listes d’URLs en parallèle avec des sorties structurées
Créer un Crawl
Découvrir et scraper des pages liées pour construire des ensembles de données complets
Créer une Carte
Extraire toutes les URLs d’un site web (découverte type sitemap)
Réponses alimentées par l'IA
Poser des questions et obtenir des réponses JSON structurées avec sources
Démarrage rapide
1) Installer Apify CLI
2) Obtenez votre clé API Olostep
Depuis le tableau de bord Olostep → Clés API.3) Exécuter l’Acteur Olostep localement
olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json
Exemple d’entrée :
4) Déployer sur Apify (cloud)
Exécuter dans la console Apify (étape par étape)
- Ouvrez votre Acteur dans la console Apify → Source → Entrée.
- Dans l’onglet Manuel, vous verrez un champ visible “Clé API Olostep”. Collez votre clé depuis le tableau de bord Olostep.
- Choisissez une opération (par défaut “scrape”).
- Remplissez les champs pertinents (pour “scrape”, définissez “URL à scraper”).
- Cliquez sur Enregistrer → Démarrer.
- Lorsque l’exécution est terminée, ouvrez l’onglet Ensemble de données pour télécharger les résultats (JSON/CSV/Excel).
- Pour “URL à scraper”, vous pouvez coller avec ou sans schéma. Si manquant, l’acteur préfixe automatiquement
https://. - Si un site est lourd en JavaScript et que vous voyez un délai d’attente, définissez “Attendre avant le scraping” à 2000–5000 ms et réexécutez.
Opérations disponibles
Scraper un site web
Extraire le contenu d’une URL unique. Idéal pour l’automatisation au niveau de la page.Doit être “scrape”
Votre clé API Olostep (Bearer)
L’URL à scraper (doit inclure http:// ou https://)
Un de : Markdown, HTML, JSON, Texte
Code pays optionnel (ex. “US”, “GB”, “CA”)
Temps d’attente optionnel en ms pour le rendu JavaScript (0–10000)
ID de parseur optionnel (ex. “@olostep/amazon-product”)
- id, url, status, formats
- markdown_content / html_content / json_content / text_content
- URLs hébergées (si disponibles), métadonnées de la page
Scraper des URLs par lot
Traiter plusieurs URLs à la fois avec un formatage et une structure cohérents.Doit être “batch”
Votre clé API Olostep
Tableau JSON d’objets avec
Exemple :
url et custom_id optionnelExemple :
[{"url":"https://example.com","custom_id":"site1"}]Un de : Markdown, HTML, JSON, Texte
Code pays optionnel
Temps d’attente optionnel en ms pour les sites JS
ID de parseur optionnel
- batch_id, status, total_urls, created_at, formats, country, parser, urls[]
Créer un Crawl
Suivre les liens et scraper plusieurs pages à partir d’une URL de départ.Doit être “crawl”
Votre clé API Olostep
URL de départ pour le crawl
Nombre maximum de pages à crawler
Suivre les liens sur la page
Un de : Markdown, HTML, JSON, Texte
Code pays optionnel
ID de parseur optionnel
- crawl_id, object, status, start_url, max_pages, follow_links, created, formats
Créer une Carte
Découvrir toutes les URLs d’un site web et préparer pour un scraping par lot ultérieur.Doit être “map”
Votre clé API Olostep
Le site web à cartographier
Filtre de requête optionnel
Limiter le nombre d’URLs
Inclure des glob(s), ex. “/products/**”
Exclure des glob(s), ex. “/admin/**”
- map_id, object, website_url, total_urls, urls[], search_query, top_n
Exemples JSON à copier-coller (Console → Entrée → JSON)
Scraper
Lot
Crawl
Carte
Réponses
Exemples de flux de travail
Découvrir et Scraper des Produits
Découvrir et Scraper des Produits
- Créer une Carte → inclure “/products/**”
- Analyser les URLs → construire un tableau par lot
- Scraper des URLs par lot → formats : JSON
- Envoyer à Google Sheets / Airtable
Surveillance de contenu quotidienne
Surveillance de contenu quotidienne
- Programmer l’acteur (quotidiennement)
- Scraper un site web → formats : Markdown
- Résumer avec LLM
- Notifier sur Slack
Base de connaissances des concurrents
Base de connaissances des concurrents
- Créer un Crawl (blog/docs)
- Stocker les sorties dans Notion
- Rafraîchir chaque semaine avec Schedule
Parseurs spécialisés
Olostep prend en charge les parseurs pour structurer les données pour les sites populaires.Produit Amazon
@olostep/amazon-product → titre, prix, note, avis, images, variantesRecherche Google
@olostep/google-search → résultats, titres, extraits, URLsGoogle Maps
@olostep/google-maps → infos entreprise, avis, notes, emplacementPlus de Parseurs
Explorez les extracteurs d’emails, les chercheurs de réseaux sociaux, les extracteurs de liens de calendrier, et plus
Bonnes pratiques
Préférez le lot pour 3+ URLs
Préférez le lot pour 3+ URLs
Plus rapide, moins cher, plus facile à surveiller et respecte les limites de taux.
Utilisez des temps d'attente appropriés
Utilisez des temps d'attente appropriés
Sites lourds en JS : augmentez
wait_before_scraping (ex., 2000–5000ms).Filtrer avant de scraper
Filtrer avant de scraper
Évitez les tâches inutiles — vérifiez les changements d’abord, gardez l’état de déduplication.
Stocker le contenu volumineux via des URLs hébergées
Stocker le contenu volumineux via des URLs hébergées
Utilisez des sorties hébergées pour contourner les limites de taille de charge utile dans les flux Apify.
Traitez les opérations asynchrones comme longues
Traitez les opérations asynchrones comme longues
Batch/Crawl/Map retournent des IDs ; récupérez plus tard ou enchaînez avec un délai.
Gérez proprement les délais d'attente transitoires
Gérez proprement les délais d'attente transitoires
Si vous voyez un 504 ou un délai d’attente transitoire, l’acteur réessaie automatiquement une fois avec un court temps d’attente.
Vous pouvez également définir “Attendre avant le scraping” à 2000–5000 ms pour les pages lourdes en JS.
Vous pouvez également définir “Attendre avant le scraping” à 2000–5000 ms pour les pages lourdes en JS.
Dépannage
Échec de l'authentification
Échec de l'authentification
- Vérifiez la clé API depuis le tableau de bord
- Supprimez les espaces de fin
- Ré-entrez dans le formulaire d’entrée Apify
Contenu vide
Contenu vide
- Augmentez le temps d’attente
- Vérifiez que l’URL est publique / non protégée par connexion
- Essayez un format de sortie différent
Limite de taux dépassée
Limite de taux dépassée
- Espacez les exécutions via un programme
- Préférez le lot pour de nombreuses URLs
- Mettez à niveau le plan Olostep si nécessaire
Sites bloqués ou dynamiques
Sites bloqués ou dynamiques
- Essayez le paramètre de pays
- Ajustez l’attente et le parseur
- Contactez le support pour des conseils
Tarification
Olostep facture par utilisation de l’API (indépendamment d’Apify) :- Scrapes → par scrape
- Lots → par URL
- Crawls → par page
- Cartes → par opération
https://olostep.com/pricing.
Sécurité
- Votre clé API est envoyée en tant que jeton Bearer à l’exécution.
- Ne commettez pas de clés dans le contrôle de version ; Apify stocke les entrées dans Key‑Value Store.
- En développement local, gardez les clés dans
storage/key_value_stores/default/INPUT.json(gitignoré).
Ressources associées
API Scrapes
Extraire Markdown, HTML, texte ou JSON structuré compatible LLM depuis n’importe quelle URL.
API Batches
Traitez jusqu’à 10k URLs simultanément et récupérez les résultats plus tard.
API Crawls
Découvrez et scrapez récursivement le contenu d’un site.
API Maps
Obtenez toutes les URLs d’un site web pour préparer des scrapes par lot.
Support
Site Web Apify
Plateforme Apify
Docs Apify
Documentation de la plateforme & SDK Apify
Documentation
Documentation complète de l’API