Créer un Crawl
Démarre un nouveau crawl. Vous recevez un id pour suivre la progression. L’opération peut prendre de 1 à 10 minutes selon le site, la profondeur et les paramètres de pages.
Autorisations
En-tête d'authentification Bearer sous la forme Bearer , où est ton jeton d'authentification.
Corps
Le point de départ du crawl.
Nombre maximum de pages à crawler. Recommandé pour la plupart des cas d'utilisation comme le crawl d'un site web entier.
Modèles de chemin d'URL à inclure dans le crawl en utilisant la syntaxe glob. Par défaut, /** inclut toutes les URLs. Utilise des modèles comme /blog/** pour crawler des sections spécifiques (par exemple, uniquement les pages de blog), /products/*.html pour les pages de produits, ou plusieurs modèles pour différentes sections. Prend en charge les fonctionnalités glob standard comme * (n'importe quels caractères) et ** (correspondance récursive).
Noms de chemin d'URL dans le modèle glob à exclure. Par exemple : /careers/**. Les URLs exclues supplanteront les URLs incluses.
Profondeur maximale du crawl. Utile pour extraire uniquement jusqu'à un certain degré de liens.
Crawler les liens externes de premier degré.
Inclure les sous-domaines du site web. false par défaut.
Une requête de recherche optionnelle pour trouver des liens spécifiques et aussi trier les résultats par pertinence.
Un nombre optionnel pour ne crawler que les N liens les plus pertinents sur chaque page selon la requête de recherche.
URL HTTPS pour recevoir une requête POST lorsque le crawl est terminé. Doit être une URL publiquement accessible utilisant le protocole http:// ou https://. Ne peut pas pointer vers localhost ou des adresses IP privées. Voir Webhooks pour le format de la charge utile et le comportement de réessai.
Terminer le crawl après n secondes avec les pages complétées jusqu'à ce moment. Peut prendre ~10s supplémentaires par rapport au délai d'attente fourni.
Si les règles de robots.txt doivent être respectées. Si réglé sur false, le crawler scrutera le site web indépendamment des directives de désactivation de robots.txt. true par défaut.
Contrôle ce que chaque page individuelle scrape demande à l'API Olostep. Tous les champs sont optionnels.
Réponse
Crawl démarré avec succès.
ID du Crawl
Le type d'objet. "crawl" pour ce point de terminaison.
in_progress ou completed
Heure de création en epoch
Heure de création en date
La profondeur actuelle du processus de crawl.
Nombre de pages crawlées
Nombre de crédits consommés par cette requête. Rempli après l'exécution terminée. Les crédits sont la source de vérité pour la facturation.
Coût estimé en USD pour cette requête. Rempli après l'exécution terminée. Calculé à partir des crédits consommés et de ton tarif de plan — 99% précis, mais credits_consumed est la valeur faisant autorité.