功能
该集成提供了 5 个强大的操作,用于自动化网络数据提取和 AI 驱动的研究:抓取网站
从任何单一 URL 提取内容,支持多种格式(Markdown、HTML、JSON、文本)
批量抓取 URL
并行处理多达 100,000 个 URL。非常适合大规模数据提取
创建爬取
自主发现并抓取整个网站,通过链接进行导航
创建地图
从网站中提取所有 URL,用于站点结构分析和内容发现
AI 问答
获取 AI 驱动的答案,并附上来自网络来源或您提供的 URL 的引用
安装
1. 在 Zapier 中查找 Olostep
在 Zapier 应用目录中或创建新 Zap 时搜索“Olostep”:- 前往 Olostep on Zapier
- 点击“创建 Zap”
- 在应用选择器中搜索“Olostep”
- 选择 Olostep 应用
2. 连接您的帐户
首次在 Zap 中使用 Olostep 时,系统会提示您连接您的帐户:- 点击“登录 Olostep”
- 输入您的 Olostep API 密钥
- 点击“是,继续到 Olostep”
可用操作
抓取网站
从单个 URL 提取内容。支持多种格式和 JavaScript 渲染。 使用场景:- 监控特定页面的变化
- 从电商网站提取产品信息
- 收集新闻文章或博客文章的数据
- 为内容聚合提取内容
要抓取的网站 URL(必须包含 http:// 或 https://)
选择格式:Markdown、HTML、JSON 或纯文本
用于特定位置内容的国家代码(例如,“US”、“GB”、“CA”)
JavaScript 渲染的等待时间(0-10000 毫秒)
用于特定提取的可选解析器 ID(例如,“@olostep/amazon-product”)
- 抓取 ID
- 抓取的 URL
- Markdown 内容
- HTML 内容
- JSON 内容
- 文本内容
- 状态
- 时间戳
- 截图 URL(如果可用)
- 页面元数据
监控竞争对手定价
监控竞争对手定价
触发器: 计划(每天上午 9 点)操作: Olostep - 抓取网站
- URL:竞争对手产品页面
- 格式:JSON
- 解析器:@olostep/amazon-product
- 将价格数据添加到跟踪电子表格
- 通知团队价格变化
提取并保存博客文章
提取并保存博客文章
触发器: RSS by Zapier - 提要中新项目操作: Olostep - 抓取网站
- URL:{{Post URL}}
- 格式:Markdown
- 将文章内容保存到 Notion 数据库
线索丰富
线索丰富
触发器: Google Sheets - 新行操作: Olostep - 抓取网站
- URL:来自表格的公司网站
- 格式:Markdown
- 使用 AI 提取公司信息
- 将丰富的数据添加回表格
批量抓取 URL
并行处理多个 URL(一次最多 100,000 个)。非常适合大规模数据提取。 使用场景:- 抓取整个产品目录
- 从多个搜索结果中提取数据
- 处理电子表格中的 URL 列表
- 批量内容提取
包含 url 和 custom_id 字段的 JSON 对象数组。示例:
[{"url":"https://example.com","custom_id":"site1"}]为所有 URL 选择格式:Markdown、HTML、JSON 或纯文本
用于特定位置抓取的国家代码
JavaScript 渲染的等待时间
用于特定提取的可选解析器 ID
- 批次 ID(用于稍后检索结果)
- 状态
- 总 URL 数
- 创建时间
- 请求格式
- 国家代码
- 使用的解析器
抓取产品目录
抓取产品目录
触发器: Webhook - 接收 POST 请求操作: Code by Zapier - 运行 Python
- 将 CSV/列表转换为 JSON 数组格式
- URL:{{上一步的 JSON 数组}}
- 格式:JSON
- 解析器:@olostep/amazon-product
- 将批次 ID 发送到您的系统以进行检索
每日内容监控
每日内容监控
触发器: 计划 - 每天早上 6 点操作: Google Sheets - 获取行
- 获取要监控的 URL
- 转换为批量数组格式
- 一次处理所有 URL
- 通知团队抓取已完成
创建爬取
通过链接自主发现并抓取整个网站。非常适合文档站点、博客和内容库。 使用场景:- 爬取并存档整个文档站点
- 从网站中提取所有博客文章
- 从网络内容构建知识库
- 监控网站结构变化
爬取的起始 URL(必须包含 http:// 或 https://)
要爬取的最大页面数
是否跟随页面上找到的链接
抓取内容的格式
用于特定位置爬取的可选国家代码
用于特定内容提取的可选解析器 ID
- 爬取 ID(用于稍后检索结果)
- 对象类型
- 状态
- 起始 URL
- 最大页面数
- 跟随链接
- 创建时间戳
- 格式
存档文档站点
存档文档站点
触发器: 计划 - 每月 1 日凌晨 12 点操作: Olostep - 创建爬取
- 起始 URL:https://docs.example.com
- 最大页面数:500
- 跟随链接:true
- 格式:Markdown
- 将爬取 ID 发送到您的存档系统
- 通知团队爬取正在进行中
竞争对手内容分析
竞争对手内容分析
触发器: 计划 - 每周一上午 9 点操作: Olostep - 创建爬取
- 起始 URL:竞争对手博客 URL
- 最大页面数:100
- 格式:Markdown
- 等待爬取完成
- 存储爬取数据以供分析
创建地图
从网站中提取所有 URL,用于内容发现和站点结构分析。 使用场景:- 构建站点地图和站点结构图
- 在批量抓取之前发现所有页面
- 查找损坏或丢失的页面
- SEO 审核和分析
要从中提取链接的网站 URL(必须包含 http:// 或 https://)
用于过滤 URL 的可选搜索查询(例如,“blog”)
限制返回的 URL 数量
包含特定路径的 Glob 模式(例如,“/blog/**”)
排除特定路径的 Glob 模式(例如,“/admin/**”)
- 地图 ID
- 对象类型
- 网站 URL
- 找到的总 URL 数
- URL(JSON 数组)
- 搜索查询
- 前 N 个限制
发现并抓取
发现并抓取
触发器: Zapier 中的按钮点击操作: Olostep - 创建地图
- URL:https://example.com
- 包含模式:/products/**
- 前 N 个:500
- 从地图结果中解析 URL
- URL:{{从地图中获取的 URL}}
- 格式:JSON
- 将所有产品数据添加到电子表格
SEO 站点审核
SEO 站点审核
触发器: 计划 - 每月操作: Olostep - 创建地图
- URL:您的网站
- 前 N 个:1000
- 存储所有 URL 以进行跟踪
- 报告找到的总页面数
AI 问答
使用网络搜索或您提供的上下文 URL 获取 AI 驱动的答案。非常适合研究自动化、内容生成和数据分析。 使用场景:- 带引用的研究自动化
- 从多个 URL 总结内容
- 生成带有来源参考的报告
- 使用特定网页回答问题
- 内容分析和提取
您希望 Olostep Answers 回答的问题
用于回答的可选 JSON URL 数组(例如,[“https://example.com/page1”, “https://example.com/page2”])
如果没有提供上下文 URL,则用于从网络检索来源的可选查询(例如,“site:example.com pricing”)
用于生成答案的来源数量限制
选择答案格式:Markdown、JSON 或纯文本
是否在响应中包含引用/来源
- 答案 ID
- 对象类型
- 问题
- 答案(文本)
- 答案(Markdown)
- 答案(JSON)
- 引用(带 URL、标题、摘要的 JSON 数组)
- 创建时间戳
- 格式
- 上下文 URL
- 搜索查询
- 来源数量
自动化研究报告
自动化研究报告
触发器: Slack - 新消息(包含研究请求)操作: Olostep - AI 问答
- 问题:{{Slack 消息}}
- 搜索查询:相关搜索词
- 来源数量:5
- 格式:Markdown
- 包含引用:true
- 回复 AI 生成的答案和引用
从 URL 总结内容
从 URL 总结内容
触发器: Google Sheets - 新行(带 URL)操作: Olostep - AI 问答
- 问题:“总结这些页面的要点”
- 上下文 URL:{{来自表格的 URL}}
- 格式:Markdown
- 包含引用:true
- 保存带来源链接的摘要
竞争情报
竞争情报
触发器: 计划 - 每周操作: Olostep - AI 问答
- 问题:“最新的产品更新和价格变化是什么?”
- 搜索查询:site:competitor.com news OR updates
- 来源数量:10
- 格式:JSON
- 存储竞争情报
- 发送每周竞争分析
FAQ 自动响应
FAQ 自动响应
触发器: Typeform - 新响应操作: Olostep - AI 问答
- 问题:{{客户问题}}
- 上下文 URL:[“https://yoursite.com/docs”, “https://yoursite.com/faq”]
- 格式:文本
- 包含引用:true
- 用 AI 生成的答案回复客户
流行工作流示例
电商价格监控
监控竞争对手价格并获得即时警报:内容聚合
从多个来源聚合内容:线索丰富管道
使用网络信息丰富线索数据:研究自动化
从多个来源自动化研究:社交媒体监控
跟踪提及和内容:多步骤工作流
完整的产品抓取管道
构建全面的产品数据管道:SEO 内容策略
分析竞争对手并规划内容:专用解析器
Olostep 提供了针对流行网站的预构建解析器。使用解析器 字段:
Google 搜索
@olostep/google-search提取:搜索结果、标题、摘要、URL使用解析器
只需将解析器 ID 添加到解析器字段:与流行应用的集成
Google Sheets
非常适合数据收集和跟踪:- 价格跟踪电子表格
- 线索丰富数据库
- 内容库存
- 竞争对手分析表
Airtable
使用抓取的数据构建强大的数据库:- 产品目录
- 研究数据库
- 内容日历
- 链接数据库
Slack
获取即时通知:- 价格下降警报
- 内容更新通知
- 错误监控
- 每日摘要
HubSpot / Salesforce
自动丰富 CRM 数据:- 线索丰富
- 公司研究
- 竞争情报
- 帐户映射
Notion
构建知识库:- 文档镜像
- 研究库
- 内容库
- 团队维基
最佳实践
使用批量处理多个 URL
使用批量处理多个 URL
当抓取超过 3-5 个 URL 时,使用 批量抓取 URL 而不是多个 抓取网站 操作。批量处理是:
- 更快(并行处理)
- 更具成本效益
- 更易于管理
- 更适合速率限制
设置适当的等待时间
设置适当的等待时间
对于 JavaScript 密集型网站,使用“抓取前等待”参数:
- 简单网站:0-1000 毫秒
- 动态网站:2000-3000 毫秒
- 重 JavaScript:5000-8000 毫秒
使用专用解析器
使用专用解析器
对于流行网站(亚马逊、LinkedIn、Google),使用预构建解析器:
- 自动获取结构化数据
- 提取更可靠
- 无需自定义解析
- 由 Olostep 维护
抓取前过滤
抓取前过滤
使用 Zapier 的过滤器操作避免不必要的抓取:
- 检查 URL 是否已更改
- 验证数据最近未被抓取
- 在抓取前应用业务逻辑
处理异步操作
处理异步操作
批量、爬取和地图操作是异步的:
- 存储返回的 ID(batch_id、crawl_id、map_id)
- 如果立即检索,请使用延迟操作
- 考虑使用 webhook 回调完成
- 为检索设置单独的 Zaps
妥善存储结果
妥善存储结果
根据您的需求选择合适的存储:
- Google Sheets:简单跟踪,团队协作
- Airtable:关系数据,丰富格式
- 数据库:大规模,复杂查询
- Notion:知识库,文档
监控和警报
监控和警报
为您的抓取工作流设置监控:
- 在 Zaps 中使用错误路径
- 在故障时发送警报到 Slack/Email
- 在 Olostep 仪表板中跟踪 API 使用情况
- 记录重要指标
按行业划分的常见用例
电商
- 价格监控:实时跟踪竞争对手定价
- 产品研究:发现热门产品和市场空白
- 库存跟踪:监控库存可用性
- 评论分析:聚合和分析客户评论
营销与 SEO
- 内容发现:寻找内容机会
- 竞争对手分析:跟踪竞争对手策略
- 反向链接研究:发现链接机会
- 关键词研究:从搜索结果中提取关键词数据
销售与线索生成
- 线索丰富:用网络信息增强 CRM 数据
- 公司研究:收集公司情报
- 联系人发现:寻找决策者
- 竞争情报:跟踪竞争对手动向
研究与分析
- 数据收集:从多个来源收集数据
- 市场研究:跟踪行业趋势
- 学术研究:收集研究数据
- 价格情报:分析定价策略
媒体与出版
- 内容聚合:从多个网站策划内容
- 新闻监控:跟踪新闻和提及
- 社交媒体:监控社交平台
- 趋势检测:识别热门话题
故障排除
身份验证失败
身份验证失败
抓取返回空内容
抓取返回空内容
错误:内容字段为空解决方案:
- 增加“抓取前等待”时间
- 检查网站是否需要登录
- 尝试不同的格式(HTML 与 Markdown)
- 验证 URL 是否可访问
- 检查网站是否阻止自动访问
批量数组格式错误
批量数组格式错误
错误:“批量数组的 JSON 格式无效”解决方案:
- 使用格式:
[{"url":"https://example.com","custom_id":"id1"}] - 确保正确的 JSON 语法
- 使用代码步骤正确格式化 URL
- 使用在线验证器测试 JSON
超出速率限制
超出速率限制
错误:“超出速率限制”解决方案:
- 使用延迟间隔 Zap 运行
- 使用批量处理而不是单个抓取
- 升级您的 Olostep 计划
- 在仪表板中检查速率限制
URL 未抓取
URL 未抓取
错误:特定 URL 无法抓取解决方案:
- 验证 URL 格式(包括 http:// 或 https://)
- 检查 URL 是否需要身份验证
- 先在浏览器中测试 URL
- 尝试使用国家参数
- 联系支持以获取被阻止的域名
Zapier 限制与解决方案
任务限制
Zapier 根据您的计划有任务限制。每个 Olostep 操作计为 1 个任务。 解决方案:使用批量处理将多个 URL 抓取为单个任务。执行时间
Zaps 在 30 秒后超时。爬取和大批量可能需要更长时间。 解决方案:存储 ID 并在单独的 Zap 中检索结果或使用 webhooks。数据大小
Zapier 对每个任务的数据大小有限制。 解决方案:在输出中使用托管 URL 单独检索大内容。轮询与即时
触发器是基于轮询的(每 5-15 分钟检查一次)。 解决方案:使用 webhooks 获取即时通知或在特定时间安排。价格
Olostep 根据 API 使用收费,与 Zapier 独立:- 抓取:按抓取付费
- 批量:按批量中的 URL 付费
- 爬取:按爬取的页面付费
- 地图:按地图操作付费
支持
需要有关 Zapier 集成的帮助?相关资源
抓取 API
了解抓取端点
批量 API
了解批量端点
爬取 API
了解爬取端点
地图 API
了解地图端点
Python SDK
使用 Python 与 Olostep 集成
LangChain 集成
使用 LangChain 构建 AI 代理
开始
准备好自动化您的网络抓取工作流了吗?创建您的第一个 Zap
开始使用 Olostep 和 Zapier 构建自动化工作流