创建爬虫
启动一个新的爬虫。你会收到一个 id 用于跟踪进度。操作可能需要1-10分钟,具体取决于站点、深度和页面参数。
授权
Bearer认证头格式为Bearer ,其中是你的认证令牌。
请求体
爬虫的起始点。
要爬取的最大页面数。推荐用于大多数用例,如爬取整个网站。
使用 glob 语法在爬虫中包含的 URL 路径模式。 默认为 /**,包括所有 URL。使用类似 /blog/** 的模式来爬取特定部分(例如,仅博客页面),/products/*.html 用于产品页面,或多个模式用于不同部分。支持标准 glob 特性,如 *(任意字符)和 **(递归匹配)。
在 glob 模式中排除的 URL 路径名称。例如:/careers/**。排除的 URL 将优先于包含的 URL。
爬虫的最大深度。用于仅提取最多 n 级链接。
爬取一级外部链接。
包含网站的子域名。默认 false。
可选的搜索查询,用于查找特定链接并按相关性排序结果。
可选的数字,仅爬取每个页面上根据搜索查询最相关的前 N 个链接。
在 n 秒后结束爬虫,并完成到那时为止的页面。可能会比提供的超时时间多花费约 10 秒。
是否遵循 robots.txt 规则。如果设置为 false,爬虫将不顾 robots.txt 的禁止指令抓取网站。默认 true。
控制每个页面抓取请求从 Olostep API 获取的内容。所有字段都是可选的。
响应
爬虫启动成功。
爬虫 ID
对象类型。此端点为 "crawl"。
in_progress 或 completed
创建时间(epoch格式)
创建时间(日期格式)
当前爬取过程的深度。
已爬取页面的数量
此请求消耗的积分数量。在执行完成后填充。积分是计费的真实来源。
此请求的估计成本(以美元计)。在执行完成后填充。根据消耗的积分和你的计划费率计算——99% 准确,但 credits_consumed 是权威值。