Passer au contenu principal
POST
/
v1
/
crawls
Démarrer un nouveau crawl
curl --request POST \
  --url https://api.olostep.com/v1/crawls \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "start_url": "<string>",
  "max_pages": 123,
  "include_urls": [
    "<string>"
  ],
  "exclude_urls": [
    "<string>"
  ],
  "max_depth": 123,
  "include_external": true,
  "include_subdomain": true,
  "search_query": "<string>",
  "top_n": 123,
  "webhook": "<string>",
  "timeout": 123,
  "follow_robots_txt": true,
  "scrape_options": {
    "formats": [
      "markdown",
      "screenshot"
    ],
    "parser": "@olostep/extract-emails"
  }
}
'
{
  "id": "<string>",
  "object": "<string>",
  "status": "<string>",
  "created": 123,
  "start_date": "<string>",
  "start_url": "<string>",
  "max_pages": 123,
  "max_depth": 123,
  "exclude_urls": [
    "<string>"
  ],
  "include_urls": [
    "<string>"
  ],
  "include_external": true,
  "search_query": "<string>",
  "top_n": 123,
  "current_depth": 123,
  "pages_count": 123,
  "webhook": "<string>",
  "follow_robots_txt": true
}
Soyez notifié à la fin : Passez le paramètre webhook avec l’URL de votre point de terminaison pour recevoir un HTTP POST lorsque l’exploration est terminée. Voir Webhooks pour plus de détails.

Autorisations

Authorization
string
header
requis

En-tête d'authentification Bearer sous la forme Bearer , où est ton jeton d'authentification.

Corps

application/json
start_url
string
requis

Le point de départ du crawl.

max_pages
number
requis

Nombre maximum de pages à crawler. Recommandé pour la plupart des cas d'utilisation comme le crawl d'un site web entier.

include_urls
string[]

Modèles de chemin URL à inclure dans le crawl en utilisant la syntaxe glob. Par défaut, /** inclut toutes les URLs. Utilise des modèles comme /blog/** pour crawler des sections spécifiques (par exemple, uniquement les pages de blog), /products/*.html pour les pages de produits, ou plusieurs modèles pour différentes sections. Prend en charge les fonctionnalités glob standard comme * (n'importe quels caractères) et ** (correspondance récursive).

exclude_urls
string[]

Noms de chemin URL en modèle glob à exclure. Par exemple : /careers/**. Les URLs exclues auront la priorité sur les URLs incluses.

max_depth
number

Profondeur maximale du crawl. Utile pour extraire uniquement jusqu'à n-degré de liens.

include_external
boolean

Crawler les liens externes de premier degré.

include_subdomain
boolean

Inclure les sous-domaines du site web. false par défaut.

search_query
string

Une requête de recherche optionnelle pour trouver des liens spécifiques et aussi trier les résultats par pertinence.

top_n
number

Un nombre optionnel pour ne crawler que les N liens les plus pertinents sur chaque page selon la requête de recherche.

webhook
string<uri>

URL HTTPS pour recevoir une requête POST lorsque le crawl est terminé. Doit être une URL publiquement accessible utilisant le protocole http:// ou https://. Ne peut pas pointer vers localhost ou des adresses IP privées. Voir Webhooks pour le format de charge utile et le comportement de réessai.

timeout
number

Terminer le crawl après n secondes avec les pages complétées jusqu'à ce moment-là. Peut prendre ~10s supplémentaires par rapport au délai d'attente fourni.

follow_robots_txt
boolean
défaut:true

Si les règles de robots.txt doivent être respectées. Si réglé sur false, le crawler scrutera le site web indépendamment des directives de désapprobation de robots.txt. true par défaut.

scrape_options
object

Contrôle ce que chaque page individuelle scrape demande à l'API Olostep. Tous les champs sont optionnels.

Réponse

Crawl démarré avec succès.

id
string

ID du Crawl

object
string

Le type d'objet. "crawl" pour ce point de terminaison.

status
string

in_progress ou completed

created
number

Heure de création en epoch

start_date
string

Heure de création en date

start_url
string
max_pages
number
max_depth
number
exclude_urls
string[]
include_urls
string[]
include_external
boolean
search_query
string
top_n
number
current_depth
number

La profondeur actuelle du processus de crawl.

pages_count
number

Nombre de pages crawlées

webhook
string
follow_robots_txt
boolean