Zum Hauptinhalt springen
GET
/
v1
/
crawls
/
{crawl_id}
/
pages
Liste der gecrawlten Seiten optional mit Inhalt abrufen
curl --request GET \
  --url https://api.olostep.com/v1/crawls/{crawl_id}/pages \
  --header 'Authorization: Bearer <token>'
{
  "crawl_id": "<string>",
  "object": "<string>",
  "status": "<string>",
  "search_query": "<string>",
  "pages_count": 123,
  "pages": [
    {
      "id": "<string>",
      "retrieve_id": "<string>",
      "url": "<string>",
      "is_external": true,
      "html_content": "<string>",
      "markdown_content": "<string>"
    }
  ],
  "metadata": {
    "external_urls": [
      "<string>"
    ],
    "failed_urls": [
      "<string>"
    ]
  },
  "cursor": 123
}

Autorisierungen

Authorization
string
header
erforderlich

Bearer-Authentifizierungsheader in der Form Bearer , wobei dein Authentifizierungstoken ist.

Pfadparameter

crawl_id
string
erforderlich

Die ID des Crawls, für den die Liste der URLs abgerufen werden soll.

Abfrageparameter

cursor
integer

Optionaler Integer, der den Index darstellt, ab dem Inhalte abgerufen werden sollen. Nützlich, um zu paginieren, bis alle URLs abgerufen sind. Beginne mit 0 und gib dann den response['cursor']-Wert der letzten Anfrage an.

limit
integer

Optionaler Integer, um die Anzahl der zurückgegebenen Ergebnisse zu begrenzen. Empfohlen 10-50 Ergebnisse auf einmal. Paginierung erfolgt mit cursor. Maximal 10MB Inhalt können in einer einzigen Anfrage abgerufen werden.

search_query
string

Eine optionale Suchanfrage, um die Ergebnisse nach Relevanz zu sortieren. Verwendet standardmäßig die ursprüngliche search_query, falls angegeben.

formats
enum<string>[]

Veraltet: Verwende den /retrieve Endpunkt mit retrieve_id. Array von Formaten zum Abrufen (z.B. ["html", "markdown"]).

Verfügbare Optionen:
html,
markdown

Antwort

Erfolgreiche Antwort mit der Liste der URLs.

crawl_id
string

Crawl-ID

object
string

Die Art des Objekts. "crawl" für diesen Endpunkt.

status
string

in_progress oder completed

search_query
string
pages_count
number
pages
object[]
metadata
object
cursor
integer

Im nächsten Request in der Abfrage übergeben, um die nächsten Elemente zu erhalten.