功能
该集成提供了 6 个强大的操作,用于自动化网页数据提取:抓取网站
从任何单个 URL 提取内容,支持多种格式(Markdown、HTML、JSON、文本)
搜索
搜索网络并获取结构化结果
答案(AI)
使用 AI 搜索网络,并获取带有来源和引用的结构化答案
批量抓取 URL
同时抓取多达 10k 个 URL。适合大规模数据提取
创建爬取
获取 URL 的子页面内容。自主发现并抓取整个网站
创建地图
获取网站上的所有 URL 以进行站点结构分析和内容发现
安装
1. 安装节点
通过 npm 安装 Olostep 节点包:2. 连接您的账户
首次在工作流中使用 Olostep 节点时,您需要配置凭据:- 将“Olostep 抓取”节点添加到您的工作流中
- 点击节点以打开其设置
- 点击“创建新凭据”或选择现有凭据
- 输入您的 Olostep API 密钥
- 点击“保存”以存储凭据
可用操作
抓取网站
从单个 URL 提取内容。支持多种格式和 JavaScript 渲染。 使用场景:- 监控特定页面的变化
- 从电商网站提取产品信息
- 收集新闻文章或博客文章的数据
- 为内容聚合拉取内容
要抓取的网站 URL(必须包含 http:// 或 https://)
选择格式:Markdown、HTML、JSON 或纯文本
用于特定位置内容的国家代码(例如,“US”、“GB”、“CA”)
JavaScript 渲染的等待时间(0-10000 毫秒)
用于专门提取的可选解析器 ID(例如,“@olostep/amazon-product”)
- 抓取 ID
- 抓取的 URL
- Markdown 内容
- HTML 内容
- JSON 内容
- 文本内容
- 状态
- 时间戳
- 截图 URL(如果可用)
- 页面元数据
监控竞争对手定价
监控竞争对手定价
触发器: 计划(每天上午 9 点)操作: Olostep - 抓取网站
- URL:竞争对手产品页面
- 格式:JSON
- 解析器:@olostep/amazon-product
- 将价格数据添加到跟踪电子表格中
- 向团队发送价格变化警报
提取并保存博客文章
提取并保存博客文章
触发器: RSS Feed - 新项目操作: Olostep - 抓取网站
- URL:{{$json.link}}
- 格式:Markdown
- 将文章内容保存到 Notion 数据库
线索丰富化
线索丰富化
触发器: Google Sheets - 新行操作: Olostep - 抓取网站
- URL:来自表格的公司网站
- 格式:Markdown
- 使用 AI 提取公司信息
- 将丰富的数据添加回表格
搜索
搜索给定查询的网络并获取结构化结果(非 AI,基于解析器的搜索结果)。 使用场景:- 自动化研究工作流
- 线索发现和丰富化
- 竞争分析
- 内容研究
搜索查询
自动化研究
自动化研究
触发器: 计划(每天上午 8 点)操作: Olostep - 搜索
- 查询:“最新的 AI 发展”
- 提取和格式化关键信息
- 存储研究成果
线索发现
线索发现
触发器: 手动(按钮)操作: Olostep - 搜索
- 查询:”{{$json.searchTerm}}”
- 存储带有联系信息的线索
批量抓取 URL
同时抓取多达 10k 个 URL。适合大规模数据提取。 使用场景:- 抓取整个产品目录
- 从多个搜索结果中提取数据
- 处理来自电子表格的 URL 列表
- 批量内容提取
包含 url 和 custom_id 字段的 JSON 对象数组。示例:
[{"url":"https://example.com","custom_id":"site1"}]为所有 URL 选择格式:Markdown、HTML、JSON 或纯文本
用于特定位置抓取的国家代码
JavaScript 渲染的等待时间
用于专门提取的可选解析器 ID
- 批次 ID(用于稍后检索结果)
- 状态
- 总 URL 数
- 创建时间
- 请求的格式
- 国家代码
- 使用的解析器
抓取产品目录
抓取产品目录
触发器: Webhook - 接收 POST 请求操作: 代码 - 格式化 URL
- 将 CSV/列表转换为 JSON 数组格式
- URL:{{$json.urlArray}}
- 格式:JSON
- 解析器:@olostep/amazon-product
- 将批次 ID 发送到您的系统以进行检索
每日内容监控
每日内容监控
触发器: 计划 - 每天上午 6 点操作: Google Sheets - 读取行
- 获取要监控的 URL
- 转换为批量数组格式
- 一次处理所有 URL
- 通知团队抓取已完成
创建爬取
获取 URL 的子页面内容。通过跟随链接自主发现并抓取整个网站。适合文档网站、博客和内容库。 使用场景:- 爬取并存档整个文档网站
- 从网站提取所有博客文章
- 从网页内容构建知识库
- 监控网站结构变化
爬取的起始 URL(必须包含 http:// 或 https://)
要爬取的最大页面数
是否跟随页面上找到的链接
抓取内容的格式
用于特定位置爬取的可选国家代码
用于专门内容提取的可选解析器 ID
- 爬取 ID(用于稍后检索结果)
- 对象类型
- 状态
- 起始 URL
- 最大页面数
- 跟随链接
- 创建时间戳
- 格式
存档文档网站
存档文档网站
触发器: 计划 - 每月 1 日凌晨 12 点操作: Olostep - 创建爬取
- 起始 URL:https://docs.example.com
- 最大页面数:500
- 跟随链接:true
- 格式:Markdown
- 将爬取 ID 发送到您的存档系统
- 通知团队爬取正在进行中
竞争对手内容分析
竞争对手内容分析
触发器: 计划 - 每周一上午 9 点操作: Olostep - 创建爬取
- 起始 URL:竞争对手博客 URL
- 最大页面数:100
- 格式:Markdown
- 等待爬取完成
- 存储爬取数据以进行分析
创建地图
获取网站上的所有 URL。提取网站上的所有 URL 以进行内容发现和站点结构分析。 使用场景:- 构建网站地图和站点结构图
- 批量抓取前发现所有页面
- 查找损坏或缺失的页面
- SEO 审核和分析
要从中提取链接的网站 URL(必须包含 http:// 或 https://)
用于过滤 URL 的可选搜索查询(例如,“blog”)
限制返回的 URL 数量
包含特定路径的 Glob 模式(例如,“/blog/**”)
排除特定路径的 Glob 模式(例如,“/admin/**”)
- 地图 ID
- 对象类型
- 网站 URL
- 发现的总 URL 数
- URL(JSON 数组)
- 搜索查询
- 前 N 限制
发现并抓取
发现并抓取
触发器: 手动(按钮)操作: Olostep - 创建地图
- URL:https://example.com
- 包含模式:/products/**
- 前 N:500
- 从地图结果解析 URL
- URL:{{$json.urls}}
- 格式:JSON
- 将所有产品数据添加到电子表格中
SEO 网站审核
SEO 网站审核
触发器: 计划 - 每月操作: Olostep - 创建地图
- URL:您的网站
- 前 N:1000
- 存储所有 URL 以进行跟踪
- 报告发现的总页面数
流行工作流示例
电商价格监控
监控竞争对手价格并获得即时警报:内容聚合
从多个来源聚合内容:线索丰富化管道
使用网页信息丰富线索数据:研究自动化
从多个来源自动化研究:社交媒体监控
跟踪提及和内容:多步骤工作流
完整的产品抓取管道
构建一个全面的产品数据管道:SEO 内容策略
分析竞争对手并规划内容:专用解析器
Olostep 提供了针对流行网站的预构建解析器。使用Parser 字段:
亚马逊产品
@olostep/amazon-product提取:标题、价格、评分、评论、图片、变体谷歌搜索
@olostep/google-search提取:搜索结果、标题、片段、URL谷歌地图
@olostep/google-maps提取:商业信息、评论、评分、位置提取电子邮件
@olostep/extract-emails提取:页面、联系人列表和页脚中的电子邮件提取社交
@olostep/extract-socials提取:社交资料链接(X/Twitter、GitHub 等)提取日历
@olostep/extract-calendars提取:页面上的日历链接(Google Calendar、ICS)使用解析器
只需将解析器 ID 添加到 Parser 字段。两个示例:与流行应用的集成
Google Sheets
适合数据收集和跟踪:- 价格跟踪电子表格
- 线索丰富化数据库
- 内容库存
- 竞争对手分析表
Airtable
使用抓取的数据构建强大的数据库:- 产品目录
- 研究数据库
- 内容日历
- 链接数据库
Slack
获取即时通知:- 价格下降警报
- 内容更新通知
- 错误监控
- 每日摘要
HubSpot / Salesforce
自动丰富 CRM 数据:- 线索丰富化
- 公司研究
- 竞争情报
- 账户映射
Notion
构建知识库:- 文档镜像
- 研究库
- 内容库
- 团队维基
最佳实践
使用批量处理多个 URL
使用批量处理多个 URL
当抓取超过 3-5 个 URL 时,使用 批量抓取 URL 而不是多个 抓取网站 操作。批量处理:
- 更快(并行处理)
- 更具成本效益
- 更易于管理
- 更适合速率限制
设置适当的等待时间
设置适当的等待时间
对于 JavaScript 密集型网站,使用“抓取前等待”参数:
- 简单网站:0-1000 毫秒
- 动态网站:2000-3000 毫秒
- 重 JavaScript:5000-8000 毫秒
使用专用解析器
使用专用解析器
使用预构建解析器(例如,亚马逊、谷歌和 Olostep 商店中的任务特定解析器,如电子邮件、社交、日历):
- 自动获取结构化数据
- 提取更可靠
- 无需自定义解析
- 由 Olostep 维护
抓取前过滤
抓取前过滤
使用 n8n 的 IF 节点避免不必要的抓取:
- 检查 URL 是否已更改
- 验证数据是否最近已抓取
- 在抓取前应用业务逻辑
处理异步操作
处理异步操作
批量、爬取和地图操作是异步的:
- 存储返回的 ID(batch_id、crawl_id、map_id)
- 如果立即检索,请使用等待节点
- 考虑使用 webhook 回调完成
- 为检索设置单独的工作流
妥善存储结果
妥善存储结果
根据您的需求选择合适的存储:
- Google Sheets:简单跟踪,团队协作
- Airtable:关系数据,丰富格式
- 数据库:大规模,复杂查询
- Notion:知识库,文档
监控和警报
监控和警报
为您的抓取工作流设置监控:
- 使用 n8n 中的错误工作流
- 在失败时向 Slack/Email 发送警报
- 在 Olostep 仪表板中跟踪 API 使用情况
- 记录重要指标
按行业划分的常见用例
电商
- 价格监控:实时跟踪竞争对手价格
- 产品研究:发现热门产品和市场空白
- 库存跟踪:监控库存可用性
- 评论分析:聚合和分析客户评论
营销与 SEO
- 内容发现:寻找内容机会
- 竞争分析:跟踪竞争对手策略
- 反向链接研究:发现链接机会
- 关键词研究:从搜索结果中提取关键词数据
销售与线索生成
- 线索丰富化:使用网页信息增强 CRM 数据
- 公司研究:收集公司情报
- 联系人发现:找到决策者
- 竞争情报:跟踪竞争对手动向
研究与分析
- 数据收集:从多个来源收集数据
- 市场研究:跟踪行业趋势
- 学术研究:收集研究数据
- 价格情报:分析定价策略
媒体与出版
- 内容聚合:从多个网站策划内容
- 新闻监控:跟踪新闻和提及
- 社交媒体:监控社交平台
- 趋势检测:识别热门话题
故障排除
身份验证失败
身份验证失败
抓取返回空内容
抓取返回空内容
错误:内容字段为空解决方案:
- 增加“抓取前等待”时间
- 检查网站是否需要登录
- 尝试不同的格式(HTML 与 Markdown)
- 验证 URL 是否可访问
- 检查网站是否阻止自动访问
批量数组格式错误
批量数组格式错误
错误:“批量数组的 JSON 格式无效”解决方案:
- 使用格式:
[{"url":"https://example.com","custom_id":"id1"}] - 确保正确的 JSON 语法
- 使用代码节点正确格式化 URL
- 使用在线验证器测试 JSON
超出速率限制
超出速率限制
错误:“超出速率限制”解决方案:
- 使用等待节点间隔工作流执行
- 使用批量处理而不是单个抓取
- 升级您的 Olostep 计划
- 在仪表板中检查速率限制
URL 未抓取
URL 未抓取
错误:特定 URL 无法抓取解决方案:
- 验证 URL 格式(包括 http:// 或 https://)
- 检查 URL 是否需要身份验证
- 先在浏览器中测试 URL
- 尝试使用国家参数
- 联系支持以获取被阻止的域名
n8n 优势
自托管
n8n 是自托管的,您可以完全控制您的工作流和数据。没有供应商锁定,数据不会离开您的基础设施。无任务限制
与基于云的自动化平台不同,n8n 不会强加任务限制。无需额外费用即可运行所需的任意数量的工作流。开源
n8n 是开源的,允许您根据特定需求进行自定义和扩展。成本效益
自托管 n8n 是免费的,并提供可选的云托管。仅需支付 Olostep API 使用费用。定价
Olostep 根据 API 使用情况收费,与 n8n 无关:- 抓取:按抓取付费
- 批次:按批次中的 URL 付费
- 爬取:按爬取的页面付费
- 地图:按地图操作付费
支持
需要 n8n 集成的帮助?相关资源
抓取 API
了解抓取端点
批次 API
了解批次端点
爬取 API
了解爬取端点
地图 API
了解地图端点
Python SDK
使用 Python 结合 Olostep
LangChain 集成
使用 LangChain 构建 AI 代理
开始使用
准备好自动化您的网页搜索、抓取和爬取工作流了吗?安装节点
安装 n8n-nodes-olostep 并开始构建自动化工作流