Vai al contenuto principale
GET
/
v1
/
crawls
/
{crawl_id}
/
pages
Recupera l'elenco delle pagine scansionate, eventualmente con contenuto
curl --request GET \
  --url https://api.olostep.com/v1/crawls/{crawl_id}/pages \
  --header 'Authorization: Bearer <token>'
{
  "crawl_id": "<string>",
  "object": "<string>",
  "status": "<string>",
  "search_query": "<string>",
  "pages_count": 123,
  "pages": [
    {
      "id": "<string>",
      "retrieve_id": "<string>",
      "url": "<string>",
      "is_external": true,
      "html_content": "<string>",
      "markdown_content": "<string>"
    }
  ],
  "metadata": {
    "external_urls": [
      "<string>"
    ],
    "failed_urls": [
      "<string>"
    ]
  },
  "cursor": 123
}

Autorizzazioni

Authorization
string
header
obbligatorio

Intestazione di autenticazione Bearer della forma Bearer , dove è il tuo token di autenticazione.

Parametri del percorso

crawl_id
string
obbligatorio

L'ID del crawl per cui recuperare l'elenco degli URL.

Parametri della query

cursor
integer

Intero opzionale che rappresenta l'indice da cui iniziare a recuperare il contenuto. Utile per paginare fino a quando tutti gli URL sono stati recuperati. Inizia con 0, poi fornisci il valore di response['cursor'] dell'ultima richiesta.

limit
integer

Intero opzionale per limitare il numero di risultati restituiti. Consigliato 10-50 risultati alla volta. Paginato usando cursor. Massimo 10MB di contenuto possono essere recuperati in una singola richiesta.

search_query
string

Una query di ricerca opzionale per ordinare i risultati per rilevanza. Usa la search_query originale per impostazione predefinita se fornita.

formats
enum<string>[]

Deprecato: Usa l'endpoint /retrieve con retrieve_id. Array di formati da recuperare (es. ["html", "markdown"]).

Opzioni disponibili:
html,
markdown

Risposta

Risposta riuscita con l'elenco degli URL.

crawl_id
string

ID del Crawl

object
string

Il tipo di oggetto. "crawl" per questo endpoint.

status
string

in_progress o completed

search_query
string
pages_count
number
pages
object[]
metadata
object
cursor
integer

Da passare nella query nella prossima richiesta per ottenere i prossimi elementi.