olostep.
Lors de l’installation, une étape postinstall télécharge le binaire correspondant depuis les releases GitHub du paquet. Si cela échoue, vérifiez qu’une release existe pour cette version du paquet et votre plateforme, puis réinstallez.
Installation
Exigences : Node.js 16+ (uniquement pournpm / npx; le CLI lui-même est un binaire natif).
Clé API
DéfinissezOLOSTEP_API_KEY dans votre environnement, ou dans un fichier .env dans le répertoire où vous exécutez olostep.
Créer des clés : Olostep API Keys.
Sortie
| Drapeau | Comportement |
|---|---|
--out <path> | Écrit le JSON dans un fichier (les répertoires parents sont créés si nécessaire). |
--out - | Écrit le JSON uniquement dans stdout (UTF-8, indenté). Utile pour les pipes et la capture de sous-processus. |
--out, les fichiers vont sous output/ (voir Chemins par défaut --out).
Commandes
Utilisezolostep <command> --help pour chaque option. La plupart des commandes acceptent --timeout (HTTP, secondes).
map : découvrir les URLs
| Option | Description |
|---|---|
--out | Chemin de fichier ou - |
--top-n | Max URLs |
--search-query | Guider la découverte |
--include-subdomain / --no-include-subdomain | Sous-domaines |
--include-url / --exclude-url | Modèles répétables |
--cursor | Pagination |
--top-n, pas --limit (supprimé).
answer : réponse recherchée
Interroge jusqu’à ce que la réponse soit prête.
| Option | Description |
|---|---|
--out | Fichier ou - |
--json-format | Indication de sortie structurée optionnelle (chaîne d’objet JSON) |
--poll-interval / --poll-timeout | Interrogation (secondes) |
--json-format, pas --model (supprimé).
scrape : une URL
Formats : html, markdown, text, json, raw_pdf, screenshot (séparés par des virgules ; par défaut markdown).
| Option | Description |
|---|---|
--formats | Séparés par des virgules |
--country | Code du pays |
--wait-before-scraping | Ms à attendre avant de scraper |
--payload-json | Options avancées sous forme de chaîne d’objet JSON |
--payload-file | Idem, depuis un fichier (pas ensemble avec --payload-json) |
scrape-get : par ID de scrape
crawl : exploration de site
Formats de récupération : markdown, html, json.
Drapeaux notables : --max-pages, --max-depth, --include-subdomain, --include-external, --include-url, --exclude-url, --search-query, --top-n, --webhook, --crawl-timeout, --follow-robots-txt / --ignore-robots-txt, --formats, --pages-limit, --pages-search-query, --poll-seconds, --poll-timeout, --dry-run (imprimer la charge utile, pas de requête).
batch-scrape : CSV
Colonnes CSV : custom_id ou id, et url.
| Option | Description |
|---|---|
--formats | markdown, html, json |
--country | Optionnel |
--parser-id | Analyseur d’extraction structuré |
--poll-seconds, --log-every, --items-limit | Interrogation / pagination |
--dry-run | Imprimer seulement la charge utile |
batch-update : mise à jour de métadonnées par lot
Nécessite l’un de --metadata-json ou --metadata-file (objet JSON).
Chemins par défaut --out
Lorsque --out est omis :
| Commande | Par défaut |
|---|---|
map | output/map.json |
answer | output/answer.json |
scrape | output/scrape.json |
scrape-get | output/scrape_get.json |
crawl | output/crawl_results.json |
batch-scrape | output/batch_results.json |
batch-update | output/batch_update.json |
Drapeaux globaux
| Drapeau | Description |
|---|---|
-V, --version | Version |
-h, --help | Aide |