跳转到主要内容
Olostep 是一个网页搜索、抓取和爬取 API——用于搜索、提取和结构化网页数据的 API。本指南展示了如何使用 Olostep 和 Apify Actors 构建可靠的端到端网页数据管道。

你可以构建的内容

抓取网站

从任何单个 URL 提取内容为 Markdown、HTML、JSON 或文本

批量抓取 URL

并行处理大量 URL 列表并生成结构化输出

创建爬虫

发现并抓取链接页面以构建完整的数据集

创建地图

从网站中提取所有 URL(类似站点地图的发现)

AI 驱动的答案

提问并获取带有来源的结构化 JSON 答案

快速开始

1) 安装 Apify CLI

npm install -g apify-cli
apify --version

2) 获取你的 Olostep API 密钥

从 Olostep 仪表板 → API 密钥。

3) 本地运行 Olostep Actor

cd olostep-tools/integrations/apify
apify run
默认本地输入文件位于: olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json 示例输入:
{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) 部署到 Apify(云端)

apify login
apify push
然后打开 Apify 控制台 → Actors → 使用你想要的输入运行 actor。

在 Apify 控制台中运行(逐步)

  1. 在 Apify 控制台中打开你的 Actor → 源代码 → 输入。
  2. 在手动选项卡中,你会看到一个可见的“Olostep API 密钥”字段。粘贴你从 Olostep 仪表板获取的密钥。
  3. 选择一个操作(默认为“scrape”)。
  4. 填写相关字段(对于“scrape”,设置“要抓取的 URL”)。
  5. 点击保存 → 开始。
  6. 运行结束后,打开数据集选项卡下载结果(JSON/CSV/Excel)。
注意:
  • 对于“要抓取的 URL”,你可以粘贴带或不带方案。如果缺失,actor 会自动添加 https://
  • 如果网站 JavaScript 较多且出现超时,请将“抓取前等待”设置为 2000–5000 毫秒并重新运行。

可用操作

抓取网站

从单个 URL 提取内容。非常适合页面级自动化。
operation
constant
默认值:"scrape"
必须为 “scrape”
apiKey
string
必填
你的 Olostep API 密钥(Bearer)
url_to_scrape
string
必填
要抓取的 URL(必须包含 http:// 或 https://)
formats
dropdown
默认值:"markdown"
选项之一:Markdown、HTML、JSON、文本
country
string
可选国家代码(例如,“US”、“GB”、“CA”)
wait_before_scraping
integer
JavaScript 渲染的可选等待时间(0–10000 毫秒)
parser
string
可选解析器 ID(例如,“@olostep/amazon-product”)
输出字段:
  • id, url, status, formats
  • markdown_content / html_content / json_content / text_content
  • 托管 URL(如果可用),页面元数据

批量抓取 URL

一次处理多个 URL,格式和结构一致。
operation
constant
默认值:"batch"
必须为 “batch”
apiKey
string
必填
你的 Olostep API 密钥
batch_array
text
必填
包含 url 和可选 custom_id 的对象的 JSON 数组
示例:[{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
默认值:"markdown"
选项之一:Markdown、HTML、JSON、文本
country
string
可选国家代码
wait_before_scraping
integer
JS 网站的可选等待时间
parser
string
可选解析器 ID
输出字段:
  • batch_id, status, total_urls, created_at, formats, country, parser, urls[]

创建爬虫

从起始 URL 跟随链接并抓取多个页面。
operation
constant
默认值:"crawl"
必须为 “crawl”
apiKey
string
必填
你的 Olostep API 密钥
start_url
string
必填
爬虫的起始 URL
max_pages
integer
默认值:"10"
最大爬取页面数
跟随页面内链接
formats
dropdown
默认值:"markdown"
选项之一:Markdown、HTML、JSON、文本
country
string
可选国家代码
parser
string
可选解析器 ID
输出字段:
  • crawl_id, object, status, start_url, max_pages, follow_links, created, formats

创建地图

发现网站上的所有 URL,为后续批量抓取做准备。
operation
constant
默认值:"map"
必须为 “map”
apiKey
string
必填
你的 Olostep API 密钥
website_url
string
必填
要映射的网站
search_query
string
可选查询过滤器
top_n
integer
限制 URL 数量
include_patterns
string
包含的 glob,例如 “/products/**”
exclude_patterns
string
排除的 glob,例如 “/admin/**”
输出字段:
  • map_id, object, website_url, total_urls, urls[], search_query, top_n

复制粘贴 JSON 示例(控制台 → 输入 → JSON)

抓取

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

批量

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

爬虫

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

地图

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

答案

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

示例工作流

  1. 创建地图 → 包含 “/products/**”
  2. 解析 URL → 构建批量数组
  3. 批量抓取 URL → 格式:JSON
  4. 发送到 Google Sheets / Airtable
  1. 安排 actor(每日)
  2. 抓取网站 → 格式:Markdown
  3. 使用 LLM 总结
  4. 在 Slack 上通知
  1. 创建爬虫(博客/文档)
  2. 将输出存储在 Notion 中
  3. 每周刷新一次

专用解析器

Olostep 支持解析器来为流行网站结构化数据。

亚马逊产品

@olostep/amazon-product → 标题、价格、评分、评论、图片、变体

谷歌搜索

@olostep/google-search → 结果、标题、摘要、URL

谷歌地图

@olostep/google-maps → 商业信息、评论、评分、位置

更多解析器

探索电子邮件提取器、社交账号查找器、日历链接提取器等

最佳实践

更快、更便宜、更容易监控并遵守速率限制。
JS 重的网站:增加 wait_before_scraping(例如,2000–5000 毫秒)。
避免不必要的任务——先检查更改,保持去重状态。
使用托管输出绕过 Apify 流程中的有效负载大小限制。
批量/爬虫/地图返回 ID;稍后检索或延迟链式操作。
如果你看到 504 或瞬时超时,actor 会自动重试一次并短暂等待。
你也可以为 JS 重的页面设置“抓取前等待”为 2000–5000 毫秒。

故障排除

  • 检查仪表板中的 API 密钥
  • 删除尾随空格
  • 在 Apify 输入表单中重新输入
  • 增加等待时间
  • 验证 URL 是否公开/不需要登录
  • 尝试不同的输出格式
  • 通过计划安排运行
  • 对于多个 URL 优先使用批量处理
  • 如有需要,升级 Olostep 计划
  • 尝试国家参数
  • 调整等待时间和解析器
  • 联系支持以获取指导

定价

Olostep 按 API 使用收费(独立于 Apify):
  • 抓取 → 每次抓取
  • 批量 → 每个 URL
  • 爬虫 → 每个页面
  • 地图 → 每个操作
请参阅 https://olostep.com/pricing

安全

  • 你的 API 密钥在运行时作为 Bearer 令牌发送。
  • 不要将密钥提交到版本控制;Apify 将输入存储在键值存储中。
  • 在本地开发中,将密钥保存在 storage/key_value_stores/default/INPUT.json(已 gitignore)。

相关资源

支持