你可以构建的内容
抓取网站
从任何单个 URL 提取内容为 Markdown、HTML、JSON 或文本
批量抓取 URL
并行处理大量 URL 列表并生成结构化输出
创建爬虫
发现并抓取链接页面以构建完整的数据集
创建地图
从网站中提取所有 URL(类似站点地图的发现)
AI 驱动的答案
提问并获取带有来源的结构化 JSON 答案
快速开始
1) 安装 Apify CLI
2) 获取你的 Olostep API 密钥
从 Olostep 仪表板 → API 密钥。3) 本地运行 Olostep Actor
olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json
示例输入:
4) 部署到 Apify(云端)
在 Apify 控制台中运行(逐步)
- 在 Apify 控制台中打开你的 Actor → 源代码 → 输入。
- 在手动选项卡中,你会看到一个可见的“Olostep API 密钥”字段。粘贴你从 Olostep 仪表板获取的密钥。
- 选择一个操作(默认为“scrape”)。
- 填写相关字段(对于“scrape”,设置“要抓取的 URL”)。
- 点击保存 → 开始。
- 运行结束后,打开数据集选项卡下载结果(JSON/CSV/Excel)。
- 对于“要抓取的 URL”,你可以粘贴带或不带方案。如果缺失,actor 会自动添加
https://。 - 如果网站 JavaScript 较多且出现超时,请将“抓取前等待”设置为 2000–5000 毫秒并重新运行。
可用操作
抓取网站
从单个 URL 提取内容。非常适合页面级自动化。必须为 “scrape”
你的 Olostep API 密钥(Bearer)
要抓取的 URL(必须包含 http:// 或 https://)
选项之一:Markdown、HTML、JSON、文本
可选国家代码(例如,“US”、“GB”、“CA”)
JavaScript 渲染的可选等待时间(0–10000 毫秒)
可选解析器 ID(例如,“@olostep/amazon-product”)
- id, url, status, formats
- markdown_content / html_content / json_content / text_content
- 托管 URL(如果可用),页面元数据
批量抓取 URL
一次处理多个 URL,格式和结构一致。必须为 “batch”
你的 Olostep API 密钥
包含
示例:
url 和可选 custom_id 的对象的 JSON 数组示例:
[{"url":"https://example.com","custom_id":"site1"}]选项之一:Markdown、HTML、JSON、文本
可选国家代码
JS 网站的可选等待时间
可选解析器 ID
- batch_id, status, total_urls, created_at, formats, country, parser, urls[]
创建爬虫
从起始 URL 跟随链接并抓取多个页面。必须为 “crawl”
你的 Olostep API 密钥
爬虫的起始 URL
最大爬取页面数
跟随页面内链接
选项之一:Markdown、HTML、JSON、文本
可选国家代码
可选解析器 ID
- crawl_id, object, status, start_url, max_pages, follow_links, created, formats
创建地图
发现网站上的所有 URL,为后续批量抓取做准备。必须为 “map”
你的 Olostep API 密钥
要映射的网站
可选查询过滤器
限制 URL 数量
包含的 glob,例如 “/products/**”
排除的 glob,例如 “/admin/**”
- map_id, object, website_url, total_urls, urls[], search_query, top_n
复制粘贴 JSON 示例(控制台 → 输入 → JSON)
抓取
批量
爬虫
地图
答案
示例工作流
发现并抓取产品
发现并抓取产品
- 创建地图 → 包含 “/products/**”
- 解析 URL → 构建批量数组
- 批量抓取 URL → 格式:JSON
- 发送到 Google Sheets / Airtable
每日内容监控
每日内容监控
- 安排 actor(每日)
- 抓取网站 → 格式:Markdown
- 使用 LLM 总结
- 在 Slack 上通知
竞争对手知识库
竞争对手知识库
- 创建爬虫(博客/文档)
- 将输出存储在 Notion 中
- 每周刷新一次
专用解析器
Olostep 支持解析器来为流行网站结构化数据。亚马逊产品
@olostep/amazon-product → 标题、价格、评分、评论、图片、变体谷歌搜索
@olostep/google-search → 结果、标题、摘要、URL谷歌地图
@olostep/google-maps → 商业信息、评论、评分、位置更多解析器
探索电子邮件提取器、社交账号查找器、日历链接提取器等
最佳实践
优先使用批量处理 3 个以上的 URL
优先使用批量处理 3 个以上的 URL
更快、更便宜、更容易监控并遵守速率限制。
使用适当的等待时间
使用适当的等待时间
JS 重的网站:增加
wait_before_scraping(例如,2000–5000 毫秒)。在抓取前进行过滤
在抓取前进行过滤
避免不必要的任务——先检查更改,保持去重状态。
通过托管 URL 存储大内容
通过托管 URL 存储大内容
使用托管输出绕过 Apify 流程中的有效负载大小限制。
将异步操作视为长时间运行
将异步操作视为长时间运行
批量/爬虫/地图返回 ID;稍后检索或延迟链式操作。
干净地处理瞬时超时
干净地处理瞬时超时
如果你看到 504 或瞬时超时,actor 会自动重试一次并短暂等待。
你也可以为 JS 重的页面设置“抓取前等待”为 2000–5000 毫秒。
你也可以为 JS 重的页面设置“抓取前等待”为 2000–5000 毫秒。
故障排除
身份验证失败
身份验证失败
- 检查仪表板中的 API 密钥
- 删除尾随空格
- 在 Apify 输入表单中重新输入
内容为空
内容为空
- 增加等待时间
- 验证 URL 是否公开/不需要登录
- 尝试不同的输出格式
超出速率限制
超出速率限制
- 通过计划安排运行
- 对于多个 URL 优先使用批量处理
- 如有需要,升级 Olostep 计划
被阻止或动态网站
被阻止或动态网站
- 尝试国家参数
- 调整等待时间和解析器
- 联系支持以获取指导
定价
Olostep 按 API 使用收费(独立于 Apify):- 抓取 → 每次抓取
- 批量 → 每个 URL
- 爬虫 → 每个页面
- 地图 → 每个操作
https://olostep.com/pricing。
安全
- 你的 API 密钥在运行时作为 Bearer 令牌发送。
- 不要将密钥提交到版本控制;Apify 将输入存储在键值存储中。
- 在本地开发中,将密钥保存在
storage/key_value_stores/default/INPUT.json(已 gitignore)。
相关资源
抓取 API
从任何 URL 提取 LLM 友好的 Markdown、HTML、文本或结构化 JSON。
批量 API
同时处理多达 10k 个 URL,并稍后检索结果。
爬虫 API
递归发现并抓取网站的内容。
地图 API
获取网站上的所有 URL,以准备批量抓取。