抓取和提取
从任何 URL 提取 markdown、HTML、JSON 或文本,支持可选的 JS 渲染
AI 答案
基于网络的答案,附带来源和结构化输出
批处理和爬虫
最多支持 10k 个 URL 并行处理,或自主发现整个网站
地图和搜索
查找网站上的每个 URL,或运行基于解析器的网络搜索
开始之前
你需要一个 Olostep API 密钥。可以从 Olostep 仪表板 获取一个——免费层覆盖个人使用。选择安装路径
对于每个客户端,最快的路径是使用托管端点https://mcp.olostep.com/mcp。无需安装,无需 Node,无需 Docker——只需粘贴一个 URL 和你的 API 密钥。
如果你需要完全本地运行(离线使用、公司代理、隔离网络),每个客户端也支持通过 npx 的本地 stdio 安装。下面的每个部分都展示了这两种方式。
托管端点使用
Authorization: Bearer YOUR_API_KEY。本地 stdio使用 OLOSTEP_API_KEY 作为环境变量。不要混淆它们——错误的认证模式是最常见的入门错误。客户端设置
- Cursor
- Claude Code
- Claude Desktop
- VS Code
- Windsurf
- Docker
- Metorial
选择合适的工具
MCP 服务器提供 10 个工具。使用此决策树选择合适的工具——代理使用相同的推理:| 你的需求是… | 使用 | 备注 |
|---|---|---|
| 某个特定页面的内容 | scrape_website 或 get_webpage_content | 对于 SPA 设置 wait_before_scraping=2000–5000 |
| 带来源的自然语言网络答案 | answers | 返回 AI 综合 + 引用 |
| 查询的搜索结果 | search_web | 基于解析器,非 AI,结构化 |
| 网站上的 URL 列表 | create_map | 仅 URL 发现——不抓取 |
| 按查询过滤的 URL | get_website_urls | 按与你的 search_query 的相关性排序 |
| 一次处理多个已知 URL | batch_scrape_urls + get_batch_results | 异步——启动后轮询 |
| 整个网站或部分 | create_crawl + get_crawl_results | 异步——从起始 URL 跟随链接 |
工具详情
scrape_website
scrape_website
从单个 URL 提取内容。支持
markdown、html、json、text。可选 country 用于地理定位请求,wait_before_scraping(0–10000 毫秒)用于 JS 密集型网站,以及 parser(例如 @olostep/amazon-product)用于结构化提取。get_webpage_content
get_webpage_content
scrape_website 的轻量级 markdown 版本。仅用于当你只想要干净的 markdown 而不需要格式选项时。search_web
search_web
查询的结构化(基于解析器)网络搜索结果。可选
country 用于本地化结果。返回 JSON,而不是 AI 文本。answers
answers
AI 驱动的
task 答案,附带来源和引用。传递一个 json 参数以特定格式获取答案——可以是 JSON 架构或简短的自然语言描述。batch_scrape_urls
batch_scrape_urls
异步抓取你已有的 2–10k 个 URL。返回一个
batch_id——然后调用 get_batch_results 获取内容。设置 wait_for_completion_seconds(最多 900)如果你想要一个单一的阻塞调用而不是轮询。推荐:对于少于 50 个 URL 的批次为 60,50–1k 为 300–600,0(单独轮询)用于更大的批次。get_batch_results
get_batch_results
获取
batch_id 的状态和抓取内容。返回 processing 直到完成,然后返回 completed 和项目数组。create_crawl
create_crawl
从
start_url 开始的异步爬虫。使用 include_url_patterns / exclude_url_patterns(如 /blog/** 的 glob 语法)进行范围限定。返回一个 crawl_id——然后调用 get_crawl_results。get_crawl_results
get_crawl_results
获取
crawl_id 的状态和页面。通过 cursor 和 items_limit(每次调用最多 100 个)支持分页。返回 in_progress 直到完成。create_map
create_map
获取网站上的 URL 列表。仅 URL 发现——不抓取。用于当你想要展示候选 URL(例如让用户选择一个子集)时。支持
include_url_patterns / exclude_url_patterns 和 search_query。get_website_urls
get_website_urls
类似于
create_map,但 URL 按与必需的 search_query 的相关性排序。用于当你想要网站上前 N 个匹配链接时。故障排除
服务器出现但显示 0 个工具
服务器出现但显示 0 个工具
你的 API 密钥无效或受限。打开 API 密钥仪表板 并验证密钥。如果使用托管端点,标题必须是 完全
Authorization: Bearer sk_...——值周围没有引号,没有多余的空格。`npx: command not found` 或 `command not found: olostep-mcp`
`npx: command not found` 或 `command not found: olostep-mcp`
Node.js 未安装(或不在你的 PATH 中)。从 nodejs.org 安装 Node 18+,然后重启你的终端 和 你的 MCP 客户端。在 Windows 上,切换到具有 Node 在 PATH 上的 CMD/PowerShell。
`mcp.olostep.com` 上的连接被拒绝或 DNS 错误
`mcp.olostep.com` 上的连接被拒绝或 DNS 错误
你可能在公司代理或防火墙后面阻止了主机。切换到本地 stdio 安装(
npx -y olostep-mcp)——它改为向 api.olostep.com 发出出站请求,这通常是允许的。编辑配置但工具列表未更新
编辑配置但工具列表未更新
客户端缓存了旧配置。完全退出并重新启动——不仅仅是关闭窗口。Claude Desktop 特别是在菜单栏/系统托盘中继续运行。
Windows 特有的 `npx` 失败
Windows 特有的 `npx` 失败
如果
npx 在 Windows 上启动服务器时出错,请使用 CMD 包装形式:`401 Missing Authorization: Bearer <OLOSTEP_API_KEY>`
`401 Missing Authorization: Bearer <OLOSTEP_API_KEY>`
配方
复制粘贴与工具配合良好的提示:- 抓取产品 URL 列表: “我有一个包含 200 个亚马逊产品 URL 的 CSV。使用
parser=@olostep/amazon-product批量抓取它们并返回 JSON。” - 爬取文档网站: “爬取 https://stripe.com/docs,`max_pages=50` 和
include_url_patterns=['/docs/**']。将每个部分总结为 markdown。” - 寻找竞争对手: “使用
answers找到 Notion 的技术文档网站的前 5 个竞争对手。返回名称、主页和一句话定位。” - 先映射后抓取: “在 https://example.com 上运行
create_map,过滤到/blog/**,然后在前 20 个结果上运行batch_scrape_urls。“
