跳转到主要内容
Olostep 是一个网页搜索、抓取和爬取的 API——用于搜索、提取和结构化网页数据的 API。本指南展示了如何使用 Olostep 与 Apify Actors 构建可靠的端到端网页数据管道。

你可以构建的内容

抓取网站

从任何单个 URL 提取内容,支持 Markdown、HTML、JSON 或文本格式

批量抓取 URL

并行处理大量 URL 列表,输出结构化结果

创建爬取

发现并抓取链接页面,构建完整的数据集

创建地图

从网站中提取所有 URL(类似站点地图的发现)

AI 驱动的答案

提问并获取带有来源的结构化 JSON 答案

快速开始

1) 安装 Apify CLI

npm install -g apify-cli
apify --version

2) 获取你的 Olostep API 密钥

从 Olostep 仪表板 → API 密钥。

3) 在本地运行 Olostep Actor

cd olostep-tools/integrations/apify
apify run
默认的本地输入文件位于: olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json 示例输入:
{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) 部署到 Apify(云端)

apify login
apify push
然后打开 Apify 控制台 → Actors → 使用你想要的输入运行 actor。

在 Apify 控制台中运行(逐步)

  1. 在 Apify 控制台中打开你的 Actor → 源代码 → 输入。
  2. 在手动标签中,你会看到一个可见的“Olostep API 密钥”字段。粘贴你从 Olostep 仪表板获取的密钥。
  3. 选择一个操作(默认为“scrape”)。
  4. 填写相关字段(对于“scrape”,设置“要抓取的 URL”)。
  5. 点击保存 → 开始。
  6. 运行结束后,打开数据集标签下载结果(JSON/CSV/Excel)。
注意:
  • 对于“要抓取的 URL”,你可以粘贴带或不带协议。如果缺失,actor 会自动添加 https://
  • 如果网站大量使用 JavaScript 并出现超时,设置“抓取前等待时间”为 2000–5000 毫秒,然后再次运行。

可用操作

抓取网站

从单个 URL 提取内容。非常适合页面级自动化。
operation
constant
默认值:"scrape"
必须为 “scrape”
apiKey
string
必填
你的 Olostep API 密钥(Bearer)
url_to_scrape
string
必填
要抓取的 URL(必须包含 http:// 或 https://)
formats
dropdown
默认值:"markdown"
选项之一:Markdown、HTML、JSON、Text
country
string
可选国家代码(例如 “US”, “GB”, “CA”)
wait_before_scraping
integer
可选的 JavaScript 渲染等待时间(0–10000 毫秒)
parser
string
可选的解析器 ID(例如 “@olostep/amazon-product”)
输出字段:
  • id, url, status, formats
  • markdown_content / html_content / json_content / text_content
  • 托管 URL(如果可用),页面元数据

批量抓取 URL

同时处理多个 URL,保持一致的格式和结构。
operation
constant
默认值:"batch"
必须为 “batch”
apiKey
string
必填
你的 Olostep API 密钥
batch_array
text
必填
包含 url 和可选 custom_id 的对象的 JSON 数组
示例:[{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
默认值:"markdown"
选项之一:Markdown、HTML、JSON、Text
country
string
可选国家代码
wait_before_scraping
integer
JS 网站的可选等待时间
parser
string
可选的解析器 ID
输出字段:
  • batch_id, status, total_urls, created_at, formats, country, parser, urls[]

创建爬取

从起始 URL 跟随链接并抓取多个页面。
operation
constant
默认值:"crawl"
必须为 “crawl”
apiKey
string
必填
你的 Olostep API 密钥
start_url
string
必填
爬取的起始 URL
max_pages
integer
默认值:"10"
爬取的最大页面数
跟随页面上的链接
formats
dropdown
默认值:"markdown"
选项之一:Markdown、HTML、JSON、Text
country
string
可选国家代码
parser
string
可选的解析器 ID
输出字段:
  • crawl_id, object, status, start_url, max_pages, follow_links, created, formats

创建地图

发现网站上的所有 URL,为后续批量抓取做准备。
operation
constant
默认值:"map"
必须为 “map”
apiKey
string
必填
你的 Olostep API 密钥
website_url
string
必填
要映射的网站
search_query
string
可选查询过滤器
top_n
integer
限制 URL 数量
include_patterns
string
包含的 glob(s),例如 “/products/**”
exclude_patterns
string
排除的 glob(s),例如 “/admin/**”
输出字段:
  • map_id, object, website_url, total_urls, urls[], search_query, top_n

复制粘贴 JSON 示例(控制台 → 输入 → JSON)

抓取

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

批量

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

爬取

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

地图

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

答案

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

示例工作流程

  1. 创建地图 → 包含 “/products/**”
  2. 解析 URL → 构建批量数组
  3. 批量抓取 URL → 格式:JSON
  4. 发送到 Google Sheets / Airtable
  1. 定期安排 actor(每日)
  2. 抓取网站 → 格式:Markdown
  3. 使用 LLM 总结
  4. 在 Slack 上通知
  1. 创建爬取(博客/文档)
  2. 将输出存储在 Notion 中
  3. 使用计划每周刷新

专用解析器

Olostep 支持解析器来为流行网站结构化数据。

亚马逊产品

@olostep/amazon-product → 标题、价格、评分、评论、图片、变体

谷歌搜索

@olostep/google-search → 结果、标题、摘要、URL

谷歌地图

@olostep/google-maps → 商业信息、评论、评分、位置

更多解析器

探索电子邮件提取器、社交账号查找器、日历链接提取器等

最佳实践

更快、更便宜、更易于监控并遵守速率限制。
JS 重的网站:增加 wait_before_scraping(例如 2000–5000 毫秒)。
避免不必要的任务——先检查更改,保持去重状态。
使用托管输出绕过 Apify 流程中的负载大小限制。
批量/爬取/地图返回 ID;稍后检索或延迟链式操作。
如果你看到 504 或瞬时超时,actor 会自动重试一次,并有短暂的等待时间。
你也可以为 JS 重的页面设置“抓取前等待时间”为 2000–5000 毫秒。

故障排除

  • 检查仪表板中的 API 密钥
  • 删除尾随空格
  • 在 Apify 输入表单中重新输入
  • 增加等待时间
  • 验证 URL 是否公开/不需要登录
  • 尝试不同的输出格式
  • 通过计划安排运行
  • 对于多个 URL,优先选择批量处理
  • 如果需要,升级 Olostep 计划
  • 尝试国家参数
  • 调整等待时间和解析器
  • 联系支持以获取指导

定价

Olostep 按 API 使用收费(独立于 Apify):
  • 抓取 → 每次抓取
  • 批量 → 每个 URL
  • 爬取 → 每个页面
  • 地图 → 每次操作
查看 https://olostep.com/pricing

安全

  • 你的 API 密钥在运行时作为 Bearer 令牌发送。
  • 不要将密钥提交到版本控制;Apify 将输入存储在键值存储中。
  • 在本地开发中,将密钥保存在 storage/key_value_stores/default/INPUT.json(已 gitignore)。

相关资源

抓取 API

从任何 URL 提取适合 LLM 的 Markdown、HTML、文本或结构化 JSON。

批量 API

同时处理多达 10k 个 URL,稍后检索结果。

爬取 API

递归发现并抓取网站的内容。

地图 API

获取网站上的所有 URL,为批量抓取做准备。

支持

Apify 网站

Apify 平台

Apify 文档

Apify 平台和 SDK 文档

文档

完整的 API 文档

支持邮箱