Démarre une nouvelle exploration. Vous recevez un id pour suivre la progression. L’opération peut prendre de 1 à 10 minutes selon le site, la profondeur et les paramètres de pages.
En-tête d'authentification Bearer sous la forme Bearer
Le point de départ du crawl.
Nombre maximum de pages à crawler. Recommandé pour la plupart des cas d'utilisation comme le crawl d'un site web entier.
Modèles de chemin URL à inclure dans le crawl en utilisant la syntaxe glob. Par défaut, /** inclut toutes les URLs. Utilise des modèles comme /blog/** pour crawler des sections spécifiques (par exemple, uniquement les pages de blog), /products/*.html pour les pages de produits, ou plusieurs modèles pour différentes sections. Prend en charge les fonctionnalités glob standard comme * (n'importe quels caractères) et ** (correspondance récursive).
Noms de chemin URL en modèle glob à exclure. Par exemple : /careers/**. Les URLs exclues auront la priorité sur les URLs incluses.
Profondeur maximale du crawl. Utile pour extraire uniquement jusqu'à n-degré de liens.
Crawler les liens externes de premier degré.
Inclure les sous-domaines du site web. false par défaut.
Une requête de recherche optionnelle pour trouver des liens spécifiques et aussi trier les résultats par pertinence.
Un nombre optionnel pour ne crawler que les N liens les plus pertinents sur chaque page selon la requête de recherche.
URL HTTPS pour recevoir une requête POST lorsque le crawl est terminé. Doit être une URL publiquement accessible utilisant le protocole http:// ou https://. Ne peut pas pointer vers localhost ou des adresses IP privées. Voir Webhooks pour le format de charge utile et le comportement de réessai.
Terminer le crawl après n secondes avec les pages complétées jusqu'à ce moment-là. Peut prendre ~10s supplémentaires par rapport au délai d'attente fourni.
Si les règles de robots.txt doivent être respectées. Si réglé sur false, le crawler scrutera le site web indépendamment des directives de désapprobation de robots.txt. true par défaut.
Contrôle ce que chaque page individuelle scrape demande à l'API Olostep. Tous les champs sont optionnels.
Crawl démarré avec succès.
ID du Crawl
Le type d'objet. "crawl" pour ce point de terminaison.
in_progress ou completed
Heure de création en epoch
Heure de création en date
La profondeur actuelle du processus de crawl.
Nombre de pages crawlées