获取网站的Markdown

概述

Olostep的scrape端点允许从任何网站提取内容。如果你想将内容提供给LLM而不包含所有HTML，markdown格式的内容非常有用。在本指南中，我们将看到如何从像https://www.nea.com/team这样的网站中提取markdown。

前提条件

在开始之前，请确保你具备以下条件：

一个有效的Olostep API密钥。你可以通过在Olostep注册获取。
系统上安装了Python
requests和json库（这些库随Python预安装，但如果需要，可以使用pip install requests安装）

从网站提取文本

以下Python脚本演示了如何使用Olostep的API从网站中提取文本和markdown内容。

import requests
import json

url = "https://api.olostep.com/v1/scrapes"

payload = {
    "url_to_scrape": "https://www.nea.com/team",
    "country": "US",
    "formats": ["markdown"],
    "wait_before_scraping": 0,
    "remove_css_selectors": "default",
}

headers = {
    "Authorization": "Bearer <YOUR_API_KEY>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(json.dumps(response.json(), indent=4))

示例响应

成功的响应将如下所示：

{
    "id": "scrape_63x2e5sf5r",
    "object": "scrape",
    "created": 1740341743,
    "metadata": {},
    "retrieve_id": "63x2e5sf5r",
    "url_to_scrape": "https://www.nea.com/team",
    "result": {
        "html_content": null,
        "markdown_content": "NEA ….",
        "text_content": null,
        "json_content": null,
        "llm_extract": null,
        "screenshot_hosted_url": null,
        "html_hosted_url": null,
        "markdown_hosted_url": "https://olostep-storage.s3.us-east-1.amazonaws.com/markDown_63x2e5sf5r.txt",
        "json_hosted_url": null,
        "text_hosted_url": null,
        "links_on_page": [],
        "page_metadata": {
            "status_code": 200,
            "title": ""
        }
    }
}

解释

url_to_scrape：指定要提取内容的网站URL。
formats：定义输出格式（在此情况下为文本）。
Authorization：包含你的API密钥以验证请求。
响应格式为JSON，并打印出来以便于阅读。

结论

使用Olostep，你可以轻松地从任何网站提取markdown内容。如果你想从网站获取内容并将其提供给LLM进行数据提取和分析，这非常有用。如果你想从同一网站反复大规模提取内容（例如监控数据、价格跟踪等），我们建议使用自定义解析器以JSON格式获取内容。

​概述

​前提条件

​从网站提取文本

​示例响应

​解释

​结论

概述

前提条件

从网站提取文本

示例响应

解释

结论