Ce que vous pouvez construire
Scraper un site web
Extraire le contenu de n’importe quelle URL en Markdown, HTML, JSON ou Texte
Scraper des URLs en lot
Traiter de grandes listes d’URLs en parallèle avec des sorties structurées
Créer un Crawl
Découvrir et scraper les pages liées pour construire des ensembles de données complets
Créer une Carte
Extraire toutes les URLs d’un site web (découverte type sitemap)
Réponses alimentées par l'IA
Poser des questions et obtenir des réponses JSON structurées avec sources
Démarrage rapide
1) Installer Apify CLI
2) Obtenez votre clé API Olostep
Depuis le tableau de bord Olostep → Clés API.3) Exécutez l’Actor Olostep localement
olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json
Exemple d’entrée :
4) Déployer sur Apify (cloud)
Exécuter dans la console Apify (étape par étape)
- Ouvrez votre Actor dans la console Apify → Source → Input.
- Dans l’onglet Manuel, vous verrez un champ visible “Clé API Olostep”. Collez votre clé depuis le tableau de bord Olostep.
- Choisissez une opération (par défaut “scrape”).
- Remplissez les champs pertinents (pour “scrape”, définissez “URL à scraper”).
- Cliquez sur Enregistrer → Démarrer.
- Lorsque l’exécution est terminée, ouvrez l’onglet Dataset pour télécharger les résultats (JSON/CSV/Excel).
- Pour “URL à scraper”, vous pouvez coller avec ou sans schéma. S’il manque, l’actor préfixe automatiquement
https://. - Si un site est lourd en JavaScript et que vous voyez un délai d’attente, définissez “Attendre avant de scraper” à 2000–5000 ms et exécutez à nouveau.
Opérations disponibles
Scraper un site web
Extraire le contenu d’une seule URL. Idéal pour l’automatisation au niveau de la page.Doit être “scrape”
Votre clé API Olostep (Bearer)
L’URL à scraper (doit inclure http:// ou https://)
Un parmi : Markdown, HTML, JSON, Texte
Code pays optionnel (ex. “US”, “GB”, “CA”)
Temps d’attente optionnel en ms pour le rendu JavaScript (0–10000)
ID de parser optionnel (ex. “@olostep/amazon-product”)
- id, url, statut, formats
- markdown_content / html_content / json_content / text_content
- URLs hébergées (si disponibles), métadonnées de la page
Scraper des URLs en lot
Traiter de nombreuses URLs à la fois avec un formatage et une structure cohérents.Doit être “batch”
Votre clé API Olostep
Tableau JSON d’objets avec
Exemple :
url et custom_id optionnelExemple :
[{"url":"https://example.com","custom_id":"site1"}]Un parmi : Markdown, HTML, JSON, Texte
Code pays optionnel
Temps d’attente optionnel en ms pour les sites JS
ID de parser optionnel
- batch_id, statut, total_urls, created_at, formats, pays, parser, urls[]
Créer un Crawl
Suivre les liens et scraper plusieurs pages à partir d’une URL de départ.Doit être “crawl”
Votre clé API Olostep
URL de départ pour le crawl
Nombre maximum de pages à crawler
Suivre les liens sur la page
Un parmi : Markdown, HTML, JSON, Texte
Code pays optionnel
ID de parser optionnel
- crawl_id, objet, statut, start_url, max_pages, follow_links, created, formats
Créer une Carte
Découvrir toutes les URLs d’un site web et préparer pour un scraping en lot ultérieur.Doit être “map”
Votre clé API Olostep
Le site web à cartographier
Filtre de requête optionnel
Limiter le nombre d’URLs
Inclure des glob(s), ex. “/products/**”
Exclure des glob(s), ex. “/admin/**”
- map_id, objet, website_url, total_urls, urls[], search_query, top_n
Exemples JSON à copier-coller (Console → Input → JSON)
Scraper
Lot
Crawl
Carte
Réponses
Exemples de flux de travail
Découvrir et Scraper des Produits
Découvrir et Scraper des Produits
- Créer une Carte → inclure “/products/**”
- Analyser les URLs → construire un tableau de lot
- Scraper des URLs en lot → formats : JSON
- Envoyer à Google Sheets / Airtable
Surveillance de Contenu Quotidienne
Surveillance de Contenu Quotidienne
- Programmer l’actor (quotidiennement)
- Scraper un site web → formats : Markdown
- Résumer avec LLM
- Notifier sur Slack
Base de Connaissances Concurrentielle
Base de Connaissances Concurrentielle
- Créer un Crawl (blog/docs)
- Stocker les sorties dans Notion
- Rafraîchir chaque semaine avec Schedule
Parseurs spécialisés
Olostep prend en charge les parseurs pour structurer les données pour les sites populaires.Produit Amazon
@olostep/amazon-product → titre, prix, note, avis, images, variantesRecherche Google
@olostep/google-search → résultats, titres, extraits, URLsGoogle Maps
@olostep/google-maps → infos entreprise, avis, notes, localisationPlus de Parseurs
Explorez les extracteurs d’emails, les chercheurs de réseaux sociaux, les extracteurs de liens de calendrier, et plus encore
Bonnes pratiques
Préférez le lot pour 3+ URLs
Préférez le lot pour 3+ URLs
Plus rapide, moins cher, plus facile à surveiller et respecte les limites de taux.
Utilisez des temps d'attente appropriés
Utilisez des temps d'attente appropriés
Sites lourds en JS : augmentez
wait_before_scraping (ex. 2000–5000ms).Filtrer avant de scraper
Filtrer avant de scraper
Évitez les tâches inutiles — vérifiez les changements d’abord, gardez l’état de déduplication.
Stocker le contenu volumineux via des URLs hébergées
Stocker le contenu volumineux via des URLs hébergées
Utilisez des sorties hébergées pour contourner les limites de taille de charge utile dans les flux Apify.
Traitez les opérations asynchrones comme longues
Traitez les opérations asynchrones comme longues
Batch/Crawl/Map retournent des IDs; récupérez plus tard ou enchaînez avec un délai.
Gérez proprement les délais d'attente transitoires
Gérez proprement les délais d'attente transitoires
Si vous voyez un 504 ou un délai d’attente transitoire, l’actor réessaie automatiquement une fois avec un court temps d’attente.
Vous pouvez également définir “Attendre avant de scraper” à 2000–5000 ms pour les pages lourdes en JS.
Vous pouvez également définir “Attendre avant de scraper” à 2000–5000 ms pour les pages lourdes en JS.
Dépannage
Échec de l'authentification
Échec de l'authentification
- Vérifiez la clé API depuis le tableau de bord
- Supprimez les espaces de fin
- Saisissez à nouveau dans le formulaire d’entrée Apify
Contenu vide
Contenu vide
- Augmentez le temps d’attente
- Vérifiez que l’URL est publique / non protégée par connexion
- Essayez un format de sortie différent
Limite de taux dépassée
Limite de taux dépassée
- Espacer les exécutions via un programme
- Préférez le lot pour de nombreuses URLs
- Mettez à niveau le plan Olostep si nécessaire
Sites bloqués ou dynamiques
Sites bloqués ou dynamiques
- Essayez le paramètre de pays
- Ajustez l’attente et le parseur
- Contactez le support pour des conseils
Tarification
Olostep facture par utilisation de l’API (indépendamment d’Apify) :- Scrapes → par scrape
- Lots → par URL
- Crawls → par page
- Maps → par opération
https://olostep.com/pricing.
Sécurité
- Votre clé API est envoyée en tant que jeton Bearer à l’exécution.
- Ne pas commettre de clés dans le contrôle de version ; Apify stocke les entrées dans le Key‑Value Store.
- En développement local, gardez les clés dans
storage/key_value_stores/default/INPUT.json(gitignored).
Ressources associées
API Scrapes
Extraire du Markdown, HTML, texte ou JSON structuré compatible LLM depuis n’importe quelle URL.
API Batches
Traitez jusqu’à 10k URLs simultanément et récupérez les résultats plus tard.
API Crawls
Découvrez et scrapez récursivement le contenu d’un site.
API Maps
Obtenez toutes les URLs d’un site web pour préparer des scrapes en lot.