跳转到主要内容

概述

Olostep的scrape端点允许从任何网站提取内容。以markdown格式的内容非常有用,尤其是当你想将其提供给LLM而不包含所有HTML时。 在本指南中,我们将看到如何从像https://www.nea.com/team这样的网站中提取markdown。

前提条件

在开始之前,请确保您具备以下条件:
  • 有效的Olostep API密钥。您可以通过在Olostep注册来获取。
  • 系统上已安装Python
  • requestsjson库(这些库随Python预装,但如果需要,可以使用pip install requests安装)

从网站提取文本

以下Python脚本演示了如何使用Olostep的API从网站中提取文本和markdown内容。
import requests
import json

url = "https://api.olostep.com/v1/scrapes"

payload = {
    "url_to_scrape": "https://www.nea.com/team",
    "country": "US",
    "formats": ["markdown"],
    "wait_before_scraping": 0,
    "remove_css_selectors": "default",
}

headers = {
    "Authorization": "Bearer <YOUR_API_KEY>",
    "Content-Type": "application/json"
}

response = requests.request("POST", url, json=payload, headers=headers)

print(json.dumps(response.json(), indent=4))

示例响应

成功的响应将类似于以下内容:
{
    "id": "scrape_63x2e5sf5r",
    "object": "scrape",
    "created": 1740341743,
    "metadata": {},
    "retrieve_id": "63x2e5sf5r",
    "url_to_scrape": "https://www.nea.com/team",
    "result": {
        "html_content": null,
        "markdown_content": "NEA ….",
        "text_content": null,
        "json_content": null,
        "llm_extract": null,
        "screenshot_hosted_url": null,
        "html_hosted_url": null,
        "markdown_hosted_url": "https://olostep-storage.s3.us-east-1.amazonaws.com/markDown_63x2e5sf5r.txt",
        "json_hosted_url": null,
        "text_hosted_url": null,
        "links_on_page": [],
        "page_metadata": {
            "status_code": 200,
            "title": ""
        }
    }
}

解释

  • url_to_scrape:指定要提取内容的网站URL。
  • formats:定义输出格式(在此情况下为文本)。
  • Authorization:包含您的API密钥以验证请求。
  • 响应格式化为JSON并打印以便于阅读。

结论

使用Olostep,您可以轻松从任何网站提取markdown内容。这在您想从网站获取内容并将其提供给LLM进行数据提取和分析时非常有用。如果您想反复从同一网站大规模提取内容(例如监控数据、价格跟踪等),我们建议使用自定义解析器以JSON格式获取内容。