メインコンテンツへスキップ
GET
/
v1
/
crawls
/
{crawl_id}
/
pages
Liste der gecrawlten Seiten optional mit Inhalt abrufen
curl --request GET \
  --url https://api.olostep.com/v1/crawls/{crawl_id}/pages \
  --header 'Authorization: Bearer <token>'
{
  "crawl_id": "<string>",
  "object": "<string>",
  "status": "<string>",
  "search_query": "<string>",
  "pages_count": 123,
  "pages": [
    {
      "id": "<string>",
      "retrieve_id": "<string>",
      "url": "<string>",
      "is_external": true,
      "html_content": "<string>",
      "markdown_content": "<string>"
    }
  ],
  "metadata": {
    "external_urls": [
      "<string>"
    ],
    "failed_urls": [
      "<string>"
    ]
  },
  "cursor": 123
}

クロールページ

このエンドポイントは、特定のクロールに関連付けられたページのリストを取得します。

リクエスト

GET /v1/crawls/{crawl_id}/pages

パスパラメータ

  • crawl_id (必須): 取得したいクロールの一意の識別子。

レスポンス

成功した場合、レスポンスは以下のフィールドを含むJSONオブジェクトを返します。
  • pages: ページオブジェクトの配列。
    • id: ページの一意の識別子。
    • url: ページのURL。
    • status: ページのクロールステータス。

リクエスト例

GET /v1/crawls/12345/pages HTTP/1.1
Host: api.olostep.com
Authorization: Bearer your_access_token

レスポンス例

{
  "pages": [
    {
      "id": "1",
      "url": "https://example.com/page1",
      "status": "crawled"
    },
    {
      "id": "2",
      "url": "https://example.com/page2",
      "status": "pending"
    }
  ]
}

エラーレスポンス

  • 404 Not Found: 指定されたcrawl_idが存在しない場合。
  • 401 Unauthorized: 認証に失敗した場合。
このエンドポイントを使用して、クロールの進行状況を追跡し、特定のページのステータスを確認することができます。

承認

Authorization
string
header
必須

Bearer authentication header of the form Bearer <token>, where <token> is your auth token.

パスパラメータ

crawl_id
string
必須

Die ID des Crawls, für den die Liste der URLs abgerufen werden soll.

クエリパラメータ

cursor
integer

Optionaler Integer, der den Index darstellt, ab dem der Inhalt abgerufen werden soll. Nützlich, um zu paginieren, bis alle URLs abgerufen sind. Beginnen Sie mit 0 und geben Sie dann den response['cursor']-Wert der letzten Anfrage an.

limit
integer

Optionaler Integer, um die Anzahl der zurückgegebenen Ergebnisse zu begrenzen. Empfohlen 10-50 Ergebnisse auf einmal. Paginierung mit cursor. Maximal 10MB Inhalt können in einer einzigen Anfrage abgerufen werden.

search_query
string

Eine optionale Suchanfrage, um die Ergebnisse nach Relevanz zu sortieren. Verwendet standardmäßig die ursprüngliche search_query, falls angegeben.

formats
enum<string>[]

Veraltet: Verwenden Sie den /retrieve-Endpunkt mit retrieve_id. Array von Formaten zum Abrufen (z.B. ["html", "markdown"]).

利用可能なオプション:
html,
markdown

レスポンス

Erfolgreiche Antwort mit der Liste der URLs.

crawl_id
string

Crawl-ID

object
string

Die Art des Objekts. "crawl" für diesen Endpunkt.

status
string

in_progress oder completed

search_query
string
pages_count
number
pages
object[]
metadata
object
cursor
integer

Im nächsten Anfrage-Query übergeben, um die nächsten Elemente zu erhalten.