跳转到主要内容
Olostep 的 Zapier 集成为 Zapier 的 8,000 多个应用生态系统带来了强大的网络抓取功能。构建自动化工作流,无需编写代码即可提取、监控和处理网络数据。 开始使用 Olostep on Zapier →

功能

该集成提供了 5 个强大的操作,用于自动化网络数据提取和 AI 驱动的研究:

抓取网站

从任何单一 URL 提取内容,支持多种格式(Markdown、HTML、JSON、文本)

批量抓取 URL

并行处理多达 100,000 个 URL。非常适合大规模数据提取

创建爬取

自主发现并抓取整个网站,通过链接进行导航

创建地图

从网站中提取所有 URL,用于站点结构分析和内容发现

AI 问答

获取 AI 驱动的答案,并附上来自网络来源或您提供的 URL 的引用

安装

1. 在 Zapier 中查找 Olostep

在 Zapier 应用目录中或创建新 Zap 时搜索“Olostep”:
  1. 前往 Olostep on Zapier
  2. 点击“创建 Zap”
  3. 在应用选择器中搜索“Olostep”
  4. 选择 Olostep 应用
或者,直接访问 Olostep 集成页面 浏览可用操作并创建您的第一个 Zap。

2. 连接您的帐户

首次在 Zap 中使用 Olostep 时,系统会提示您连接您的帐户:
  1. 点击“登录 Olostep”
  2. 输入您的 Olostep API 密钥
  3. 点击“是,继续到 Olostep”
Olostep 仪表板 获取您的 API 密钥。

可用操作

抓取网站

从单个 URL 提取内容。支持多种格式和 JavaScript 渲染。 使用场景:
  • 监控特定页面的变化
  • 从电商网站提取产品信息
  • 收集新闻文章或博客文章的数据
  • 为内容聚合提取内容
配置:
抓取的 URL
string
必填
要抓取的网站 URL(必须包含 http:// 或 https://)
输出格式
dropdown
默认值:"Markdown"
选择格式:Markdown、HTML、JSON 或纯文本
国家代码
string
用于特定位置内容的国家代码(例如,“US”、“GB”、“CA”)
抓取前等待
integer
JavaScript 渲染的等待时间(0-10000 毫秒)
解析器
string
用于特定提取的可选解析器 ID(例如,“@olostep/amazon-product”)
输出字段:
  • 抓取 ID
  • 抓取的 URL
  • Markdown 内容
  • HTML 内容
  • JSON 内容
  • 文本内容
  • 状态
  • 时间戳
  • 截图 URL(如果可用)
  • 页面元数据
示例工作流:
触发器: 计划(每天上午 9 点)操作: Olostep - 抓取网站
  • URL:竞争对手产品页面
  • 格式:JSON
  • 解析器:@olostep/amazon-product
操作: Google Sheets - 创建行
  • 将价格数据添加到跟踪电子表格
操作: Gmail - 发送电子邮件(如果价格下降)
  • 通知团队价格变化
触发器: RSS by Zapier - 提要中新项目操作: Olostep - 抓取网站
  • URL:{{Post URL}}
  • 格式:Markdown
操作: Notion - 创建页面
  • 将文章内容保存到 Notion 数据库
触发器: Google Sheets - 新行操作: Olostep - 抓取网站
  • URL:来自表格的公司网站
  • 格式:Markdown
操作: OpenAI - 完成文本
  • 使用 AI 提取公司信息
操作: Google Sheets - 更新行
  • 将丰富的数据添加回表格

批量抓取 URL

并行处理多个 URL(一次最多 100,000 个)。非常适合大规模数据提取。 使用场景:
  • 抓取整个产品目录
  • 从多个搜索结果中提取数据
  • 处理电子表格中的 URL 列表
  • 批量内容提取
配置:
要抓取的 URL
text
必填
包含 url 和 custom_id 字段的 JSON 对象数组。示例:[{"url":"https://example.com","custom_id":"site1"}]
输出格式
dropdown
默认值:"Markdown"
为所有 URL 选择格式:Markdown、HTML、JSON 或纯文本
国家代码
string
用于特定位置抓取的国家代码
抓取前等待
integer
JavaScript 渲染的等待时间
解析器
string
用于特定提取的可选解析器 ID
输出字段:
  • 批次 ID(用于稍后检索结果)
  • 状态
  • 总 URL 数
  • 创建时间
  • 请求格式
  • 国家代码
  • 使用的解析器
示例工作流:
触发器: Webhook - 接收 POST 请求操作: Code by Zapier - 运行 Python
  • 将 CSV/列表转换为 JSON 数组格式
操作: Olostep - 批量抓取 URL
  • URL:{{上一步的 JSON 数组}}
  • 格式:JSON
  • 解析器:@olostep/amazon-product
操作: Webhook - POST
  • 将批次 ID 发送到您的系统以进行检索
触发器: 计划 - 每天早上 6 点操作: Google Sheets - 获取行
  • 获取要监控的 URL
操作: Code by Zapier - 格式化 URL
  • 转换为批量数组格式
操作: Olostep - 批量抓取 URL
  • 一次处理所有 URL
操作: Slack - 发送消息
  • 通知团队抓取已完成

创建爬取

通过链接自主发现并抓取整个网站。非常适合文档站点、博客和内容库。 使用场景:
  • 爬取并存档整个文档站点
  • 从网站中提取所有博客文章
  • 从网络内容构建知识库
  • 监控网站结构变化
配置:
起始 URL
string
必填
爬取的起始 URL(必须包含 http:// 或 https://)
最大页面数
integer
默认值:"10"
要爬取的最大页面数
跟随链接
boolean
默认值:"true"
是否跟随页面上找到的链接
输出格式
dropdown
默认值:"Markdown"
抓取内容的格式
国家代码
string
用于特定位置爬取的可选国家代码
解析器
string
用于特定内容提取的可选解析器 ID
输出字段:
  • 爬取 ID(用于稍后检索结果)
  • 对象类型
  • 状态
  • 起始 URL
  • 最大页面数
  • 跟随链接
  • 创建时间戳
  • 格式
示例工作流:
触发器: 计划 - 每月 1 日凌晨 12 点操作: Olostep - 创建爬取操作: Webhook - POST
  • 将爬取 ID 发送到您的存档系统
操作: Slack - 发送消息
  • 通知团队爬取正在进行中
触发器: 计划 - 每周一上午 9 点操作: Olostep - 创建爬取
  • 起始 URL:竞争对手博客 URL
  • 最大页面数:100
  • 格式:Markdown
操作: 延迟 - 10 分钟
  • 等待爬取完成
操作: Airtable - 创建记录
  • 存储爬取数据以供分析

创建地图

从网站中提取所有 URL,用于内容发现和站点结构分析。 使用场景:
  • 构建站点地图和站点结构图
  • 在批量抓取之前发现所有页面
  • 查找损坏或丢失的页面
  • SEO 审核和分析
配置:
网站 URL
string
必填
要从中提取链接的网站 URL(必须包含 http:// 或 https://)
搜索查询
string
用于过滤 URL 的可选搜索查询(例如,“blog”)
前 N 个 URL
integer
限制返回的 URL 数量
包含 URL 模式
string
包含特定路径的 Glob 模式(例如,“/blog/**”)
排除 URL 模式
string
排除特定路径的 Glob 模式(例如,“/admin/**”)
输出字段:
  • 地图 ID
  • 对象类型
  • 网站 URL
  • 找到的总 URL 数
  • URL(JSON 数组)
  • 搜索查询
  • 前 N 个限制
示例工作流:
触发器: Zapier 中的按钮点击操作: Olostep - 创建地图操作: Code by Zapier - 提取 URL
  • 从地图结果中解析 URL
操作: Olostep - 批量抓取 URL
  • URL:{{从地图中获取的 URL}}
  • 格式:JSON
操作: Google Sheets - 创建行
  • 将所有产品数据添加到电子表格
触发器: 计划 - 每月操作: Olostep - 创建地图
  • URL:您的网站
  • 前 N 个:1000
操作: Airtable - 创建记录
  • 存储所有 URL 以进行跟踪
操作: Slack - 发送消息
  • 报告找到的总页面数

AI 问答

使用网络搜索或您提供的上下文 URL 获取 AI 驱动的答案。非常适合研究自动化、内容生成和数据分析。 使用场景:
  • 带引用的研究自动化
  • 从多个 URL 总结内容
  • 生成带有来源参考的报告
  • 使用特定网页回答问题
  • 内容分析和提取
配置:
问题
string
必填
您希望 Olostep Answers 回答的问题
上下文 URL(JSON 数组)
string
用于回答的可选 JSON URL 数组(例如,[“https://example.com/page1”, “https://example.com/page2”])
搜索查询
string
如果没有提供上下文 URL,则用于从网络检索来源的可选查询(例如,“site:example.com pricing”)
来源数量
integer
用于生成答案的来源数量限制
格式
dropdown
默认值:"Markdown"
选择答案格式:Markdown、JSON 或纯文本
包含引用
boolean
默认值:"true"
是否在响应中包含引用/来源
输出字段:
  • 答案 ID
  • 对象类型
  • 问题
  • 答案(文本)
  • 答案(Markdown)
  • 答案(JSON)
  • 引用(带 URL、标题、摘要的 JSON 数组)
  • 创建时间戳
  • 格式
  • 上下文 URL
  • 搜索查询
  • 来源数量
示例工作流:
触发器: Slack - 新消息(包含研究请求)操作: Olostep - AI 问答
  • 问题:{{Slack 消息}}
  • 搜索查询:相关搜索词
  • 来源数量:5
  • 格式:Markdown
  • 包含引用:true
操作: Slack - 发送消息
  • 回复 AI 生成的答案和引用
触发器: Google Sheets - 新行(带 URL)操作: Olostep - AI 问答
  • 问题:“总结这些页面的要点”
  • 上下文 URL:{{来自表格的 URL}}
  • 格式:Markdown
  • 包含引用:true
操作: Notion - 创建页面
  • 保存带来源链接的摘要
触发器: 计划 - 每周操作: Olostep - AI 问答
  • 问题:“最新的产品更新和价格变化是什么?”
  • 搜索查询:site:competitor.com news OR updates
  • 来源数量:10
  • 格式:JSON
操作: Airtable - 创建记录
  • 存储竞争情报
操作: 邮件 - 发送报告
  • 发送每周竞争分析
触发器: Typeform - 新响应操作: Olostep - AI 问答操作: Gmail - 发送电子邮件
  • 用 AI 生成的答案回复客户

流行工作流示例

电商价格监控

监控竞争对手价格并获得即时警报:
触发器:计划(每小时)

操作:Olostep - 抓取网站
  - URL:竞争对手产品页面
  - 格式:JSON
  - 解析器:@olostep/amazon-product

操作:过滤器(仅在价格变化时继续)

操作:Slack - 发送消息
  - 警报:“价格变为 $\{\{price\}\}”

内容聚合

从多个来源聚合内容:
触发器:Google Sheets - 新行

操作:Olostep - 抓取网站
  - URL:\{\{来自表格的 URL\}\}
  - 格式:Markdown

操作:OpenAI - 总结
  - 总结内容

操作:Airtable - 创建记录
  - 存储带摘要的文章

线索丰富管道

使用网络信息丰富线索数据:
触发器:HubSpot - 新联系人

操作:Olostep - 抓取网站
  - URL:\{\{公司网站\}\}
  - 格式:Markdown

操作:OpenAI - 提取数据
  - 提取:公司规模、行业、产品

操作:HubSpot - 更新联系人
  - 将丰富的数据添加到联系人

研究自动化

从多个来源自动化研究:
触发器:Airtable - 新记录

操作:Olostep - 创建地图
  - URL:研究目标网站
  - 包含:/research/**

操作:代码 - 解析 URL

操作:Olostep - 批量抓取 URL
  - URL:\{\{发现的 URL\}\}
  - 格式:Markdown

操作:Notion - 创建页面
  - 创建研究数据库

社交媒体监控

跟踪提及和内容:
触发器:计划(每 6 小时)

操作:Olostep - 抓取网站
  - URL:新闻网站搜索页面
  - 格式:HTML

操作:代码 - 提取提及
  - 查找品牌提及

操作:Google Sheets - 创建行
  - 记录带时间戳的提及

多步骤工作流

完整的产品抓取管道

构建全面的产品数据管道:
1

发现产品 URL

使用 创建地图 查找目标网站上的所有产品页面
  • 包含模式:/products/**
  • 排除模式:/cart/**, /checkout/**
2

批量处理产品

使用 批量抓取 URL 提取所有产品数据
  • 格式:JSON
  • 解析器:如果可用,使用特定产品解析器
3

存储在数据库中

将批次 ID 发送到您的系统或等待并检索结果
  • 使用 Airtable、Google Sheets 或您的数据库
4

监控变化

计划每日抓取以跟踪价格/可用性变化
  • 与现有数据进行比较
  • 对重大变化发出警报

SEO 内容策略

分析竞争对手并规划内容:
1

映射竞争对手网站

在竞争对手网站上使用 创建地图
  • 提取所有博客文章和内容页面
2

抓取内容

使用 批量抓取 URL 获取完整内容
  • 格式:Markdown 以便于分析
3

AI 分析

使用 OpenAI 分析主题和关键词
  • 识别内容空白
  • 找到热门话题
4

创建内容日历

将见解添加到 Notion 或 Airtable
  • 规划您的内容策略

专用解析器

Olostep 提供了针对流行网站的预构建解析器。使用 解析器 字段:

Google 搜索

@olostep/google-search提取:搜索结果、标题、摘要、URL

使用解析器

只需将解析器 ID 添加到解析器字段:
操作:Olostep - 抓取网站
  - URL:https://www.amazon.com/dp/PRODUCT_ID
  - 格式:JSON
  - 解析器:@olostep/amazon-product
解析器会自动提取特定于该网站类型的结构化数据。

与流行应用的集成

Google Sheets

非常适合数据收集和跟踪:
1. Olostep 抓取网站
2. 过滤或转换数据
3. Google Sheets - 创建/更新行
使用场景:
  • 价格跟踪电子表格
  • 线索丰富数据库
  • 内容库存
  • 竞争对手分析表

Airtable

使用抓取的数据构建强大的数据库:
1. Olostep 抓取或爬取
2. 代码 - 格式化数据
3. Airtable - 创建记录
使用场景:
  • 产品目录
  • 研究数据库
  • 内容日历
  • 链接数据库

Slack

获取即时通知:
1. Olostep 监控页面
2. 过滤器 - 检查变化
3. Slack - 发送消息
使用场景:
  • 价格下降警报
  • 内容更新通知
  • 错误监控
  • 每日摘要

HubSpot / Salesforce

自动丰富 CRM 数据:
1. 添加新联系人
2. Olostep 抓取公司网站
3. OpenAI 提取关键信息
4. CRM - 更新联系人
使用场景:
  • 线索丰富
  • 公司研究
  • 竞争情报
  • 帐户映射

Notion

构建知识库:
1. Olostep 爬取文档
2. 代码 - 解析内容
3. Notion - 创建页面
使用场景:
  • 文档镜像
  • 研究库
  • 内容库
  • 团队维基

最佳实践

当抓取超过 3-5 个 URL 时,使用 批量抓取 URL 而不是多个 抓取网站 操作。批量处理是:
  • 更快(并行处理)
  • 更具成本效益
  • 更易于管理
  • 更适合速率限制
对于 JavaScript 密集型网站,使用“抓取前等待”参数:
  • 简单网站:0-1000 毫秒
  • 动态网站:2000-3000 毫秒
  • 重 JavaScript:5000-8000 毫秒
使用不同的值进行测试以找到最佳等待时间。
对于流行网站(亚马逊、LinkedIn、Google),使用预构建解析器:
  • 自动获取结构化数据
  • 提取更可靠
  • 无需自定义解析
  • 由 Olostep 维护
使用 Zapier 的过滤器操作避免不必要的抓取:
  • 检查 URL 是否已更改
  • 验证数据最近未被抓取
  • 在抓取前应用业务逻辑
这可以节省 API 额度和执行时间。
批量、爬取和地图操作是异步的:
  • 存储返回的 ID(batch_id、crawl_id、map_id)
  • 如果立即检索,请使用延迟操作
  • 考虑使用 webhook 回调完成
  • 为检索设置单独的 Zaps
根据您的需求选择合适的存储:
  • Google Sheets:简单跟踪,团队协作
  • Airtable:关系数据,丰富格式
  • 数据库:大规模,复杂查询
  • Notion:知识库,文档
为您的抓取工作流设置监控:
  • 在 Zaps 中使用错误路径
  • 在故障时发送警报到 Slack/Email
  • 在 Olostep 仪表板中跟踪 API 使用情况
  • 记录重要指标

按行业划分的常见用例

电商

  • 价格监控:实时跟踪竞争对手定价
  • 产品研究:发现热门产品和市场空白
  • 库存跟踪:监控库存可用性
  • 评论分析:聚合和分析客户评论

营销与 SEO

  • 内容发现:寻找内容机会
  • 竞争对手分析:跟踪竞争对手策略
  • 反向链接研究:发现链接机会
  • 关键词研究:从搜索结果中提取关键词数据

销售与线索生成

  • 线索丰富:用网络信息增强 CRM 数据
  • 公司研究:收集公司情报
  • 联系人发现:寻找决策者
  • 竞争情报:跟踪竞争对手动向

研究与分析

  • 数据收集:从多个来源收集数据
  • 市场研究:跟踪行业趋势
  • 学术研究:收集研究数据
  • 价格情报:分析定价策略

媒体与出版

  • 内容聚合:从多个网站策划内容
  • 新闻监控:跟踪新闻和提及
  • 社交媒体:监控社交平台
  • 趋势检测:识别热门话题

故障排除

错误:“无效的 API 密钥”解决方案
  • 仪表板 检查 API 密钥
  • 确保 API 密钥中没有多余的空格
  • 在 Zapier 中重新连接您的 Olostep 帐户
  • 验证 API 密钥是否有效
错误:内容字段为空解决方案
  • 增加“抓取前等待”时间
  • 检查网站是否需要登录
  • 尝试不同的格式(HTML 与 Markdown)
  • 验证 URL 是否可访问
  • 检查网站是否阻止自动访问
错误:“批量数组的 JSON 格式无效”解决方案
  • 使用格式:[{"url":"https://example.com","custom_id":"id1"}]
  • 确保正确的 JSON 语法
  • 使用代码步骤正确格式化 URL
  • 使用在线验证器测试 JSON
错误:“超出速率限制”解决方案
  • 使用延迟间隔 Zap 运行
  • 使用批量处理而不是单个抓取
  • 升级您的 Olostep 计划
  • 在仪表板中检查速率限制
错误:特定 URL 无法抓取解决方案
  • 验证 URL 格式(包括 http:// 或 https://)
  • 检查 URL 是否需要身份验证
  • 先在浏览器中测试 URL
  • 尝试使用国家参数
  • 联系支持以获取被阻止的域名

Zapier 限制与解决方案

任务限制

Zapier 根据您的计划有任务限制。每个 Olostep 操作计为 1 个任务。 解决方案:使用批量处理将多个 URL 抓取为单个任务。

执行时间

Zaps 在 30 秒后超时。爬取和大批量可能需要更长时间。 解决方案:存储 ID 并在单独的 Zap 中检索结果或使用 webhooks。

数据大小

Zapier 对每个任务的数据大小有限制。 解决方案:在输出中使用托管 URL 单独检索大内容。

轮询与即时

触发器是基于轮询的(每 5-15 分钟检查一次)。 解决方案:使用 webhooks 获取即时通知或在特定时间安排。

价格

Olostep 根据 API 使用收费,与 Zapier 独立:
  • 抓取:按抓取付费
  • 批量:按批量中的 URL 付费
  • 爬取:按爬取的页面付费
  • 地图:按地图操作付费
olostep.com/pricing 查看当前价格。 Zapier 计划:您还需要一个有效的 Zapier 计划来运行 Zaps。

支持

需要有关 Zapier 集成的帮助?

相关资源

开始

准备好自动化您的网络抓取工作流了吗?

创建您的第一个 Zap

开始使用 Olostep 和 Zapier 构建自动化工作流
今天就将 Olostep 与 8,000 多个应用连接起来,自动化您的网络数据提取!