Olostep + Apify 集成 - Olostep Docs

Olostep 是一个网页搜索、抓取和爬取的 API——用于搜索、提取和结构化网页数据的 API。本指南展示了如何使用 Olostep 与 Apify Actors 构建可靠的端到端网页数据管道。

你可以构建的内容

抓取网站

从任何单个 URL 提取内容，支持 Markdown、HTML、JSON 或文本格式

批量抓取 URL

并行处理大量 URL 列表，输出结构化结果

创建爬取

发现并抓取链接页面，构建完整的数据集

创建地图

从网站中提取所有 URL（类似站点地图的发现）

AI 驱动的答案

提问并获取带有来源的结构化 JSON 答案

快速开始

1) 安装 Apify CLI

npm install -g apify-cli
apify --version

2) 获取你的 Olostep API 密钥

从 Olostep 仪表板 → API 密钥。

3) 在本地运行 Olostep Actor

cd olostep-tools/integrations/apify
apify run

默认的本地输入文件位于： olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json 示例输入：

{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) 部署到 Apify（云端）

apify login
apify push

然后打开 Apify 控制台 → Actors → 使用你想要的输入运行 actor。

在 Apify 控制台中运行（逐步）

在 Apify 控制台中打开你的 Actor → 源代码 → 输入。
在手动标签中，你会看到一个可见的“Olostep API 密钥”字段。粘贴你从 Olostep 仪表板获取的密钥。
选择一个操作（默认为“scrape”）。
填写相关字段（对于“scrape”，设置“要抓取的 URL”）。
点击保存 → 开始。
运行结束后，打开数据集标签下载结果（JSON/CSV/Excel）。

注意：

对于“要抓取的 URL”，你可以粘贴带或不带协议。如果缺失，actor 会自动添加 https://。
如果网站大量使用 JavaScript 并出现超时，设置“抓取前等待时间”为 2000–5000 毫秒，然后再次运行。

可用操作

抓取网站

从单个 URL 提取内容。非常适合页面级自动化。

operation

constant

默认值:"scrape"

必须为 “scrape”

apiKey

string

必填

你的 Olostep API 密钥（Bearer）

url_to_scrape

string

必填

要抓取的 URL（必须包含 http:// 或 https://）

formats

dropdown

默认值:"markdown"

选项之一：Markdown、HTML、JSON、Text

country

string

可选国家代码（例如 “US”, “GB”, “CA”）

wait_before_scraping

integer

可选的 JavaScript 渲染等待时间（0–10000 毫秒）

parser

string

可选的解析器 ID（例如 “@olostep/amazon-product”）

输出字段：

id, url, status, formats
markdown_content / html_content / json_content / text_content
托管 URL（如果可用），页面元数据

批量抓取 URL

同时处理多个 URL，保持一致的格式和结构。

operation

constant

默认值:"batch"

必须为 “batch”

apiKey

string

必填

你的 Olostep API 密钥

batch_array

text

必填

包含 url 和可选 custom_id 的对象的 JSON 数组
示例：[{"url":"https://example.com","custom_id":"site1"}]

formats

dropdown

默认值:"markdown"

选项之一：Markdown、HTML、JSON、Text

country

string

可选国家代码

wait_before_scraping

integer

JS 网站的可选等待时间

parser

string

可选的解析器 ID

输出字段：

batch_id, status, total_urls, created_at, formats, country, parser, urls[]

创建爬取

从起始 URL 跟随链接并抓取多个页面。

operation

constant

默认值:"crawl"

必须为 “crawl”

apiKey

string

必填

你的 Olostep API 密钥

start_url

string

必填

爬取的起始 URL

max_pages

integer

默认值:"10"

爬取的最大页面数

follow_links

boolean

默认值:"true"

跟随页面上的链接

formats

dropdown

默认值:"markdown"

选项之一：Markdown、HTML、JSON、Text

country

string

可选国家代码

parser

string

可选的解析器 ID

输出字段：

crawl_id, object, status, start_url, max_pages, follow_links, created, formats

创建地图

发现网站上的所有 URL，为后续批量抓取做准备。

operation

constant

默认值:"map"

必须为 “map”

apiKey

string

必填

你的 Olostep API 密钥

website_url

string

必填

要映射的网站

search_query

string

可选查询过滤器

top_n

integer

限制 URL 数量

include_patterns

string

包含的 glob(s)，例如 “/products/**”

exclude_patterns

string

排除的 glob(s)，例如 “/admin/**”

输出字段：

map_id, object, website_url, total_urls, urls[], search_query, top_n

复制粘贴 JSON 示例（控制台 → 输入 → JSON）

抓取

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

批量

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

爬取

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

地图

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

答案

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

示例工作流程

发现并抓取产品

创建地图 → 包含 “/products/**”
解析 URL → 构建批量数组
批量抓取 URL → 格式：JSON
发送到 Google Sheets / Airtable

每日内容监控

定期安排 actor（每日）
抓取网站 → 格式：Markdown
使用 LLM 总结
在 Slack 上通知

竞争对手知识库

创建爬取（博客/文档）
将输出存储在 Notion 中
使用计划每周刷新

专用解析器

Olostep 支持解析器来为流行网站结构化数据。

亚马逊产品

@olostep/amazon-product → 标题、价格、评分、评论、图片、变体

谷歌搜索

@olostep/google-search → 结果、标题、摘要、URL

谷歌地图

@olostep/google-maps → 商业信息、评论、评分、位置

最佳实践

优先选择 3 个以上 URL 的批量处理

更快、更便宜、更易于监控并遵守速率限制。

使用适当的等待时间

JS 重的网站：增加 wait_before_scraping（例如 2000–5000 毫秒）。

在抓取前进行过滤

避免不必要的任务——先检查更改，保持去重状态。

通过托管 URL 存储大内容

使用托管输出绕过 Apify 流程中的负载大小限制。

将异步操作视为长时间运行

批量/爬取/地图返回 ID；稍后检索或延迟链式操作。

干净地处理瞬时超时

如果你看到 504 或瞬时超时，actor 会自动重试一次，并有短暂的等待时间。
你也可以为 JS 重的页面设置“抓取前等待时间”为 2000–5000 毫秒。

故障排除

身份验证失败

检查仪表板中的 API 密钥
删除尾随空格
在 Apify 输入表单中重新输入

内容为空

增加等待时间
验证 URL 是否公开/不需要登录
尝试不同的输出格式

超出速率限制

通过计划安排运行
对于多个 URL，优先选择批量处理
如果需要，升级 Olostep 计划

被阻止或动态网站

尝试国家参数
调整等待时间和解析器
联系支持以获取指导

定价

Olostep 按 API 使用收费（独立于 Apify）：

抓取 → 每次抓取
批量 → 每个 URL
爬取 → 每个页面
地图 → 每次操作

查看 https://olostep.com/pricing。

安全

你的 API 密钥在运行时作为 Bearer 令牌发送。
不要将密钥提交到版本控制；Apify 将输入存储在键值存储中。
在本地开发中，将密钥保存在 storage/key_value_stores/default/INPUT.json（已 gitignore）。

抓取 API

从任何 URL 提取适合 LLM 的 Markdown、HTML、文本或结构化 JSON。

批量 API

同时处理多达 10k 个 URL，稍后检索结果。

爬取 API

递归发现并抓取网站的内容。

地图 API

获取网站上的所有 URL，为批量抓取做准备。

支持

Apify 网站

Apify 平台

Apify 文档

Apify 平台和 SDK 文档

文档

完整的 API 文档

支持邮箱

info@olostep.com

开始使用

功能

集成

Documentation Index

​你可以构建的内容

抓取网站

批量抓取 URL

创建爬取

创建地图

AI 驱动的答案

​快速开始

​1) 安装 Apify CLI

​2) 获取你的 Olostep API 密钥

​3) 在本地运行 Olostep Actor

​4) 部署到 Apify（云端）

​在 Apify 控制台中运行（逐步）

​可用操作

​抓取网站

​批量抓取 URL

​创建爬取

​创建地图

​复制粘贴 JSON 示例（控制台 → 输入 → JSON）

​抓取

​批量

​爬取

​地图

​答案

​示例工作流程

​专用解析器

亚马逊产品

谷歌搜索

谷歌地图

更多解析器

​最佳实践

​故障排除

​定价

​安全

​相关资源

抓取 API

批量 API

爬取 API

地图 API

​支持

Apify 网站

Apify 文档

文档

支持邮箱

你可以构建的内容

快速开始

1) 安装 Apify CLI

2) 获取你的 Olostep API 密钥

3) 在本地运行 Olostep Actor

4) 部署到 Apify（云端）

在 Apify 控制台中运行（逐步）

可用操作

抓取网站

批量抓取 URL

创建爬取

创建地图

复制粘贴 JSON 示例（控制台 → 输入 → JSON）

抓取

批量

爬取

地图

答案

示例工作流程

专用解析器

最佳实践

故障排除

定价

安全

相关资源

支持