Olostep est une API de recherche, de scraping et de crawling Web — une API pour rechercher, extraire et structurer des données web. Ce guide montre comment utiliser Olostep avec les Acteurs Apify pour construire des pipelines de données web fiables de bout en bout.Documentation Index
Fetch the complete documentation index at: https://docs.olostep.com/llms.txt
Use this file to discover all available pages before exploring further.
Ce que vous pouvez construire
Scraper un site web
Scraper des URLs par lot
Créer un Crawl
Créer une Carte
Réponses alimentées par l'IA
Démarrage rapide
1) Installer Apify CLI
2) Obtenez votre clé API Olostep
Depuis le tableau de bord Olostep → Clés API.3) Exécuter l’Acteur Olostep localement
olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json
Exemple d’entrée :
4) Déployer sur Apify (cloud)
Exécuter dans la console Apify (étape par étape)
- Ouvrez votre Acteur dans la console Apify → Source → Entrée.
- Dans l’onglet Manuel, vous verrez un champ visible “Clé API Olostep”. Collez votre clé depuis le tableau de bord Olostep.
- Choisissez une opération (par défaut “scrape”).
- Remplissez les champs pertinents (pour “scrape”, définissez “URL à scraper”).
- Cliquez sur Enregistrer → Démarrer.
- Lorsque l’exécution est terminée, ouvrez l’onglet Ensemble de données pour télécharger les résultats (JSON/CSV/Excel).
- Pour “URL à scraper”, vous pouvez coller avec ou sans schéma. Si manquant, l’acteur préfixe automatiquement
https://. - Si un site est lourd en JavaScript et que vous voyez un délai d’attente, définissez “Attendre avant le scraping” à 2000–5000 ms et réexécutez.
Opérations disponibles
Scraper un site web
Extraire le contenu d’une URL unique. Idéal pour l’automatisation au niveau de la page.- id, url, status, formats
- markdown_content / html_content / json_content / text_content
- URLs hébergées (si disponibles), métadonnées de la page
Scraper des URLs par lot
Traiter plusieurs URLs à la fois avec un formatage et une structure cohérents.url et custom_id optionnelExemple :
[{"url":"https://example.com","custom_id":"site1"}]- batch_id, status, total_urls, created_at, formats, country, parser, urls[]
Créer un Crawl
Suivre les liens et scraper plusieurs pages à partir d’une URL de départ.- crawl_id, object, status, start_url, max_pages, follow_links, created, formats
Créer une Carte
Découvrir toutes les URLs d’un site web et préparer pour un scraping par lot ultérieur.- map_id, object, website_url, total_urls, urls[], search_query, top_n
Exemples JSON à copier-coller (Console → Entrée → JSON)
Scraper
Lot
Crawl
Carte
Réponses
Exemples de flux de travail
Découvrir et Scraper des Produits
Découvrir et Scraper des Produits
- Créer une Carte → inclure “/products/**”
- Analyser les URLs → construire un tableau par lot
- Scraper des URLs par lot → formats : JSON
- Envoyer à Google Sheets / Airtable
Surveillance de contenu quotidienne
Surveillance de contenu quotidienne
- Programmer l’acteur (quotidiennement)
- Scraper un site web → formats : Markdown
- Résumer avec LLM
- Notifier sur Slack
Base de connaissances des concurrents
Base de connaissances des concurrents
- Créer un Crawl (blog/docs)
- Stocker les sorties dans Notion
- Rafraîchir chaque semaine avec Schedule
Parseurs spécialisés
Olostep prend en charge les parseurs pour structurer les données pour les sites populaires.Produit Amazon
@olostep/amazon-product → titre, prix, note, avis, images, variantesRecherche Google
@olostep/google-search → résultats, titres, extraits, URLsGoogle Maps
@olostep/google-maps → infos entreprise, avis, notes, emplacementPlus de Parseurs
Bonnes pratiques
Préférez le lot pour 3+ URLs
Préférez le lot pour 3+ URLs
Utilisez des temps d'attente appropriés
Utilisez des temps d'attente appropriés
wait_before_scraping (ex., 2000–5000ms).Filtrer avant de scraper
Filtrer avant de scraper
Stocker le contenu volumineux via des URLs hébergées
Stocker le contenu volumineux via des URLs hébergées
Traitez les opérations asynchrones comme longues
Traitez les opérations asynchrones comme longues
Gérez proprement les délais d'attente transitoires
Gérez proprement les délais d'attente transitoires
Vous pouvez également définir “Attendre avant le scraping” à 2000–5000 ms pour les pages lourdes en JS.
Dépannage
Échec de l'authentification
Échec de l'authentification
- Vérifiez la clé API depuis le tableau de bord
- Supprimez les espaces de fin
- Ré-entrez dans le formulaire d’entrée Apify
Contenu vide
Contenu vide
- Augmentez le temps d’attente
- Vérifiez que l’URL est publique / non protégée par connexion
- Essayez un format de sortie différent
Limite de taux dépassée
Limite de taux dépassée
- Espacez les exécutions via un programme
- Préférez le lot pour de nombreuses URLs
- Mettez à niveau le plan Olostep si nécessaire
Sites bloqués ou dynamiques
Sites bloqués ou dynamiques
- Essayez le paramètre de pays
- Ajustez l’attente et le parseur
- Contactez le support pour des conseils
Tarification
Olostep facture par utilisation de l’API (indépendamment d’Apify) :- Scrapes → par scrape
- Lots → par URL
- Crawls → par page
- Cartes → par opération
https://olostep.com/pricing.
Sécurité
- Votre clé API est envoyée en tant que jeton Bearer à l’exécution.
- Ne commettez pas de clés dans le contrôle de version ; Apify stocke les entrées dans Key‑Value Store.
- En développement local, gardez les clés dans
storage/key_value_stores/default/INPUT.json(gitignoré).