ウェブサイトのMarkdownを取得

概要

Olostepのscrapeエンドポイントを使用すると、任意のウェブサイトからコンテンツを抽出できます。Markdown形式のコンテンツは、HTMLを含まずにLLMに提供したい場合に便利です。このガイドでは、https://www.nea.com/teamのようなウェブサイトからMarkdownを抽出する方法を見ていきます。

前提条件

始める前に、以下を確認してください：

有効なOlostep APIキー。これはOlostepにサインアップすることで取得できます。
システムにPythonがインストールされていること
requestsとjsonライブラリ（これらはPythonにプリインストールされていますが、必要に応じてpip install requestsでインストールできます）

ウェブサイトからテキストを抽出する

以下のPythonスクリプトは、OlostepのAPIを使用してウェブサイトからテキストとMarkdownコンテンツを抽出する方法を示しています。

import requests
import json

url = "https://api.olostep.com/v1/scrapes"

payload = {
    "url_to_scrape": "https://www.nea.com/team",
    "country": "US",
    "formats": ["markdown"],
    "wait_before_scraping": 0,
    "remove_css_selectors": "default",
}

headers = {
    "Authorization": "Bearer <YOUR_API_KEY>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(json.dumps(response.json(), indent=4))

レスポンスの例

成功したレスポンスは次のようになります：

{
    "id": "scrape_63x2e5sf5r",
    "object": "scrape",
    "created": 1740341743,
    "metadata": {},
    "retrieve_id": "63x2e5sf5r",
    "url_to_scrape": "https://www.nea.com/team",
    "result": {
        "html_content": null,
        "markdown_content": "NEA ….",
        "text_content": null,
        "json_content": null,
        "llm_extract": null,
        "screenshot_hosted_url": null,
        "html_hosted_url": null,
        "markdown_hosted_url": "https://olostep-storage.s3.us-east-1.amazonaws.com/markDown_63x2e5sf5r.txt",
        "json_hosted_url": null,
        "text_hosted_url": null,
        "links_on_page": [],
        "page_metadata": {
            "status_code": 200,
            "title": ""
        }
    }
}

説明

url_to_scrape: コンテンツを抽出するウェブサイトのURLを指定します。
formats: 出力形式を定義します（この場合はテキスト）。
Authorization: リクエストを認証するためのAPIキーを含みます。
レスポンスはJSON形式でフォーマットされ、読みやすく表示されます。

結論

Olostepを使用すると、任意のウェブサイトから簡単にMarkdownコンテンツを抽出できます。これは、ウェブサイトからコンテンツを取得してLLMに提供し、データ抽出や分析を行いたい場合に便利です。同じウェブサイトから繰り返しコンテンツを大規模に抽出したい場合（例：データの監視、価格追跡など）、カスタムパーサーを使用してJSON形式でコンテンツを取得することをお勧めします。

​概要

​前提条件

​ウェブサイトからテキストを抽出する

​レスポンスの例

​説明

​結論

概要

前提条件

ウェブサイトからテキストを抽出する

レスポンスの例

説明

結論