Pages de Crawl - Olostep Docs

Récupérer la liste des pages crawlées éventuellement avec le contenu

curl --request GET \
  --url https://api.olostep.com/v1/crawls/{crawl_id}/pages \
  --header 'Authorization: Bearer <token>'

const options = {method: 'GET', headers: {Authorization: 'Bearer <token>'}};

fetch('https://api.olostep.com/v1/crawls/{crawl_id}/pages', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.olostep.com/v1/crawls/{crawl_id}/pages",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "GET",
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer <token>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"net/http"
	"io"
)

func main() {

	url := "https://api.olostep.com/v1/crawls/{crawl_id}/pages"

	req, _ := http.NewRequest("GET", url, nil)

	req.Header.Add("Authorization", "Bearer <token>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

require 'uri'
require 'net/http'

url = URI("https://api.olostep.com/v1/crawls/{crawl_id}/pages")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Get.new(url)
request["Authorization"] = 'Bearer <token>'

response = http.request(request)
puts response.read_body

{
  "crawl_id": "<string>",
  "object": "<string>",
  "status": "<string>",
  "search_query": "<string>",
  "pages_count": 123,
  "pages": [
    {
      "id": "<string>",
      "retrieve_id": "<string>",
      "url": "<string>",
      "is_external": true,
      "html_content": "<string>",
      "markdown_content": "<string>"
    }
  ],
  "metadata": {
    "external_urls": [
      "<string>"
    ],
    "failed_urls": [
      "<string>"
    ]
  },
  "cursor": 123
}

GET

/

v1

/

crawls

/

{crawl_id}

/

pages

Récupérer la liste des pages crawlées éventuellement avec le contenu

curl --request GET \
  --url https://api.olostep.com/v1/crawls/{crawl_id}/pages \
  --header 'Authorization: Bearer <token>'

const options = {method: 'GET', headers: {Authorization: 'Bearer <token>'}};

fetch('https://api.olostep.com/v1/crawls/{crawl_id}/pages', options)
  .then(res => res.json())
  .then(res => console.log(res))
  .catch(err => console.error(err));

<?php

$curl = curl_init();

curl_setopt_array($curl, [
  CURLOPT_URL => "https://api.olostep.com/v1/crawls/{crawl_id}/pages",
  CURLOPT_RETURNTRANSFER => true,
  CURLOPT_ENCODING => "",
  CURLOPT_MAXREDIRS => 10,
  CURLOPT_TIMEOUT => 30,
  CURLOPT_HTTP_VERSION => CURL_HTTP_VERSION_1_1,
  CURLOPT_CUSTOMREQUEST => "GET",
  CURLOPT_HTTPHEADER => [
    "Authorization: Bearer <token>"
  ],
]);

$response = curl_exec($curl);
$err = curl_error($curl);

curl_close($curl);

if ($err) {
  echo "cURL Error #:" . $err;
} else {
  echo $response;
}

package main

import (
	"fmt"
	"net/http"
	"io"
)

func main() {

	url := "https://api.olostep.com/v1/crawls/{crawl_id}/pages"

	req, _ := http.NewRequest("GET", url, nil)

	req.Header.Add("Authorization", "Bearer <token>")

	res, _ := http.DefaultClient.Do(req)

	defer res.Body.Close()
	body, _ := io.ReadAll(res.Body)

	fmt.Println(string(body))

}

require 'uri'
require 'net/http'

url = URI("https://api.olostep.com/v1/crawls/{crawl_id}/pages")

http = Net::HTTP.new(url.host, url.port)
http.use_ssl = true

request = Net::HTTP::Get.new(url)
request["Authorization"] = 'Bearer <token>'

response = http.request(request)
puts response.read_body

{
  "crawl_id": "<string>",
  "object": "<string>",
  "status": "<string>",
  "search_query": "<string>",
  "pages_count": 123,
  "pages": [
    {
      "id": "<string>",
      "retrieve_id": "<string>",
      "url": "<string>",
      "is_external": true,
      "html_content": "<string>",
      "markdown_content": "<string>"
    }
  ],
  "metadata": {
    "external_urls": [
      "<string>"
    ],
    "failed_urls": [
      "<string>"
    ]
  },
  "cursor": 123
}

Autorisations

Authorization

string

header

requis

En-tête d'authentification Bearer sous la forme Bearer , où est ton jeton d'authentification.

Paramètres de chemin

crawl_id

string

requis

L'ID du crawl pour lequel récupérer la liste des URLs.

Paramètres de requête

cursor

integer

Entier optionnel représentant l'index pour commencer à récupérer le contenu. Utile pour paginer jusqu'à ce que toutes les URLs soient récupérées. Commence avec 0, puis fournis la valeur response['cursor'] de la dernière requête.

limit

integer

Entier optionnel pour limiter le nombre de résultats retournés. Recommandé 10-50 résultats à la fois. Paginé en utilisant cursor. Maximum 10MB de contenu peuvent être récupérés en une seule requête.

search_query

string

Une requête de recherche optionnelle pour trier les résultats par pertinence. Utilise la search_query originale par défaut si fournie.

formats

enum<string>[]

Obsolète : Utilise l'endpoint /retrieve avec retrieve_id. Tableau de formats à récupérer (par exemple, ["html", "markdown"]).

Options disponibles:

html,

markdown

Réponse

Réponse réussie avec la liste des URLs.

crawl_id

string

ID du Crawl

object

string

Le type d'objet. "crawl" pour cet endpoint.

status

string

in_progress ou completed

search_query

string

pages_count

number

pages

object[]

Show child attributes

metadata

object

Show child attributes

cursor

integer

À passer dans la requête suivante pour obtenir les éléments suivants.

Informations sur le Crawl Créer une carte