メインコンテンツへスキップ
Olostepの/v1/mapsエンドポイントを通じて、ウェブサイト上のすべてのURLを取得できます。これは、コンテンツの発見、サイト構造の分析(例:SEO)、次にスクレイプしたいURLを決定するのに役立ちます。
  • ウェブサイト上のすべてのURLを取得(サイトマップと発見されたリンクを含む)
  • 特殊なパターンを使用してパスを含める/除外する(例:/blog/**
  • cursorで大きなレスポンスをページネーション(1レスポンスあたり最大10MB)
  • top_nでボリュームを制限
APIの詳細については、マップエンドポイントAPIリファレンスを参照してください。

インストール

pip install olostep

使用方法

ウェブサイトのurlを指定してPOSTリクエストを送信します。オプションでinclude_urlsexclude_urls(グロブパターン)、およびtop_nを渡すことができます。
from olostep import Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

sitemap = client.maps.create(url="https://docs.olostep.com")

for url in sitemap.urls():
    print(url)
レスポンスタイムは通常数秒以内ですが、より複雑なウェブサイトの場合は最大120秒かかることがあります。ウェブサイトからすべてのURLを抽出でき、バックリンクやサイトマップに存在しないものも含まれます。また、レスポンスに含めるまたは除外するURLパスを決定することもできます。 デフォルトでは、エンドポイントは1回の呼び出しで約100kのURLを返します(最大10MB)。レスポンスにより多くのデータが含まれている場合、APIはページネーションと後続のURLを取得するために使用できるcursorパラメータを返します。詳細については、APIリファレンスを参照してください。 このエンドポイントは、以下のような場合に特に役立ちます:
  • ウェブサイト上のすべてのコンテンツページを発見する
  • サイト構造と階層を分析する
  • バッチ処理のためにURLを準備する
  • スクレイプする特定のURLを決定する
返されるURLをより詳細に制御するために、include_urlsexclude_urlsのパラメータを使用できます。

例えば、www.brex.comから/product/以降のパスを持つすべてのURLを抽出したい場合、例:https://www.brex.com/product/api/no-code、しかしwww.brex.com/productも含めたい場合は、以下のコードを使用できます:
from olostep import Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

sitemap = client.maps.create(
    url="https://www.brex.com/",
    include_urls=["/product", "/product/**"],
    top_n=100000,
)

for url in sitemap.urls():
    print(url)

結論

マップエンドポイントは、コンテンツの発見やサイト分析に強力なツールです。ウェブサイト上のURLの包括的なリストを提供し、特定のページからコンテンツを抽出したり、サイト構造を分析したりすることができます。このエンドポイントは、SEOプロフェッショナル、コンテンツマーケター、ウェブサイトのコンテンツや構造を分析する必要があるAIエージェントに特に役立ちます。

料金

マップは1クレジットです。レスポンスで返される追加の1000URLごとに、追加のクレジットが請求されます。