Créer une Exploration

curl --request POST \ --url https://api.olostep.com/v1/crawls \ --header 'Authorization: Bearer <token>' \ --header 'Content-Type: application/json' \ --data ' { "start_url": "<string>", "max_pages": 123, "include_urls": [ "<string>" ], "exclude_urls": [ "<string>" ], "max_depth": 123, "include_external": true, "include_subdomain": true, "search_query": "<string>", "top_n": 123, "webhook": "<string>", "timeout": 123, "follow_robots_txt": true, "scrape_options": { "formats": [ "markdown", "screenshot" ], "parser": "@olostep/extract-emails" } } '

{ "id": "<string>", "object": "<string>", "status": "<string>", "created": 123, "start_date": "<string>", "start_url": "<string>", "max_pages": 123, "max_depth": 123, "exclude_urls": [ "<string>" ], "include_urls": [ "<string>" ], "include_external": true, "search_query": "<string>", "top_n": 123, "current_depth": 123, "pages_count": 123, "webhook": "<string>", "follow_robots_txt": true }

Autorisations

Authorization

string

header

requis

En-tête d'authentification Bearer sous la forme Bearer , où est ton jeton d'authentification.

Corps

application/json

start_url

string

requis

Le point de départ du crawl.

max_pages

number

requis

Nombre maximum de pages à crawler. Recommandé pour la plupart des cas d'utilisation comme le crawl d'un site web entier.

include_urls

string[]

Modèles de chemin URL à inclure dans le crawl en utilisant la syntaxe glob. Par défaut, /** inclut toutes les URLs. Utilise des modèles comme /blog/** pour crawler des sections spécifiques (par exemple, uniquement les pages de blog), /products/*.html pour les pages de produits, ou plusieurs modèles pour différentes sections. Prend en charge les fonctionnalités glob standard comme * (n'importe quels caractères) et ** (correspondance récursive).

exclude_urls

string[]

Noms de chemin URL en modèle glob à exclure. Par exemple : /careers/**. Les URLs exclues auront la priorité sur les URLs incluses.

max_depth

number

Profondeur maximale du crawl. Utile pour extraire uniquement jusqu'à n-degré de liens.

include_external

boolean

Crawler les liens externes de premier degré.

include_subdomain

boolean

Inclure les sous-domaines du site web. false par défaut.

search_query

string

Une requête de recherche optionnelle pour trouver des liens spécifiques et aussi trier les résultats par pertinence.

top_n

number

Un nombre optionnel pour ne crawler que les N liens les plus pertinents sur chaque page selon la requête de recherche.

webhook

string<uri>

URL HTTPS pour recevoir une requête POST lorsque le crawl est terminé. Doit être une URL publiquement accessible utilisant le protocole http:// ou https://. Ne peut pas pointer vers localhost ou des adresses IP privées. Voir Webhooks pour le format de charge utile et le comportement de réessai.

timeout

number

Terminer le crawl après n secondes avec les pages complétées jusqu'à ce moment-là. Peut prendre ~10s supplémentaires par rapport au délai d'attente fourni.

follow_robots_txt

boolean

défaut:true

Si les règles de robots.txt doivent être respectées. Si réglé sur false, le crawler scrutera le site web indépendamment des directives de désapprobation de robots.txt. true par défaut.

scrape_options

object

Contrôle ce que chaque page individuelle scrape demande à l'API Olostep. Tous les champs sont optionnels.

Show child attributes

Réponse

Crawl démarré avec succès.

string

ID du Crawl

object

string

Le type d'objet. "crawl" pour ce point de terminaison.

status

string

in_progress ou completed

created

number

Heure de création en epoch

start_date

string

Heure de création en date

start_url

string

max_pages

number

max_depth

number

exclude_urls

string[]

include_urls

string[]

include_external

boolean

search_query

string

top_n

number

current_depth

number

La profondeur actuelle du processus de crawl.

pages_count

number

Nombre de pages crawlées

webhook

string

follow_robots_txt

boolean

Commun

Grattages

Lots

Explorations

Cartes

Réponses

Rechercher

Fichiers

Horaires

Récupérer

Autorisations

Corps

Réponse

Commun

Grattages

Lots

Explorations

Cartes

Réponses

Rechercher

Fichiers

Horaires

Récupérer

Documentation Index

Autorisations

Corps

Réponse