Passer au contenu principal
GET
/
v1
/
crawls
/
{crawl_id}
/
pages
Récupérer la liste des pages crawlées éventuellement avec le contenu
curl --request GET \
  --url https://api.olostep.com/v1/crawls/{crawl_id}/pages \
  --header 'Authorization: Bearer <token>'
{
  "crawl_id": "<string>",
  "object": "<string>",
  "status": "<string>",
  "search_query": "<string>",
  "pages_count": 123,
  "pages": [
    {
      "id": "<string>",
      "retrieve_id": "<string>",
      "url": "<string>",
      "is_external": true,
      "html_content": "<string>",
      "markdown_content": "<string>"
    }
  ],
  "metadata": {
    "external_urls": [
      "<string>"
    ],
    "failed_urls": [
      "<string>"
    ]
  },
  "cursor": 123
}

Autorisations

Authorization
string
header
requis

En-tête d'authentification Bearer sous la forme Bearer , où est ton jeton d'authentification.

Paramètres de chemin

crawl_id
string
requis

L'ID du crawl pour lequel récupérer la liste des URLs.

Paramètres de requête

cursor
integer

Entier optionnel représentant l'index à partir duquel commencer à récupérer le contenu. Utile pour paginer jusqu'à ce que toutes les URLs soient récupérées. Commence avec 0, puis fournis la valeur response['cursor'] de la dernière requête.

limit
integer

Entier optionnel pour limiter le nombre de résultats retournés. Recommandé 10-50 résultats à la fois. Paginé en utilisant cursor. Maximum 10MB de contenu peuvent être récupérés en une seule requête.

search_query
string

Une requête de recherche optionnelle pour trier les résultats par pertinence. Utilise la search_query originale par défaut si fournie.

formats
enum<string>[]

Obsolète : Utilise le point de terminaison /retrieve avec retrieve_id. Tableau de formats à récupérer (par exemple, ["html", "markdown"]).

Options disponibles:
html,
markdown

Réponse

Réponse réussie avec la liste des URLs.

crawl_id
string

ID du Crawl

object
string

Le type d'objet. "crawl" pour ce point de terminaison.

status
string

in_progress ou completed

search_query
string
pages_count
number
pages
object[]
metadata
object
cursor
integer

À passer dans la requête suivante pour obtenir les éléments suivants.