メインコンテンツへスキップ
Olostepの/v1/mapsエンドポイントを使用すると、ウェブサイト上のすべてのURLを取得できます。これは、コンテンツの発見、サイト構造の分析(例:SEO)、次にスクレイプしたいURLを決定するのに役立ちます。
  • ウェブサイト上のすべてのURLを取得(サイトマップや発見されたリンクを含む)
  • 特殊なパターンを使用してパスを含める/除外する(例:/blog/**
  • cursorを使用して大きなレスポンスをページネーション(1レスポンスあたり最大10MB)
  • top_nでボリュームを制限
APIの詳細については、マップエンドポイントAPIリファレンスを参照してください。

インストール

# pip install requests

import requests

使用法

ウェブサイトのurlを指定してPOSTリクエストを送信します。オプションでinclude_urlsexclude_urls(グロブパターン)、およびtop_nを渡すことができます。
import requests
import json

endpoint = "https://api.olostep.com/v1/maps"

payload = {
    "url": "https://docs.olostep.com"
}
headers = {
    "Authorization": "Bearer <YOUR_API_KEY>",
    "Content-Type": "application/json"
}

response = requests.post(endpoint, json=payload, headers=headers)
print(json.dumps(response.json(), indent=2))
レスポンスタイムは通常数秒以内ですが、より複雑なウェブサイトの場合は最大120秒かかることがあります。ウェブサイトからすべてのURLを抽出でき、バックリンクやサイトマップに存在しないものも含まれます。また、レスポンスから含めたいまたは除外したいURLパスを決定することもできます。 デフォルトでは、エンドポイントは1回の呼び出しで約100kのURLを返します(最大10MB)。レスポンスにより多くのデータが含まれる場合、APIはページネーションと後続のURLを取得するために使用できるcursorパラメータを返します。詳細については、APIリファレンスを参照してください。 このエンドポイントは特に次のような場合に役立ちます:
  • ウェブサイト上のすべてのコンテンツページを発見する
  • サイト構造と階層を分析する
  • バッチ処理のためにURLを準備する
  • スクレイプする特定のURLを決定する
返されるURLをより細かく制御するために、include_urlsexclude_urlsのパラメータを使用できます。

例えば、www.brex.comから/product/以降のパスを持つすべてのURLを抽出したい場合、例えばhttps://www.brex.com/product/api/no-codeですが、www.brex.com/productも含めたいとします。 次のコードを使用できます:
import requests

endpoint = "https://api.olostep.com/v1/maps"

payload = {
    "url": "https://www.brex.com/",
    "include_urls": ["/product", "/product/**"],
    "top_n": 100000
}

headers = {
    "Authorization": "Bearer <YOUR_API_KEY>",
    "Content-Type": "application/json"
}

response = requests.post(endpoint, json=payload, headers=headers)

print(response.text)

結論

マップエンドポイントは、コンテンツ発見とサイト分析のための強力なツールです。ウェブサイト上のURLの包括的なリストを提供し、特定のページからコンテンツを抽出したり、サイト構造を分析したりすることができます。このエンドポイントは、SEOプロフェッショナル、コンテンツマーケター、ウェブサイトのコンテンツや構造を分析する必要があるAIエージェントに特に役立ちます。

料金

マップは1クレジットです。その後、レスポンスで返される追加の1000 URLごとに、追加のクレジットが請求されます。