开始一个新的抓取。你会收到一个 id 用于跟踪进度。操作可能需要1-10分钟,具体取决于网站、深度和页面参数。
Documentation Index
Fetch the complete documentation index at: https://docs.olostep.com/llms.txt
Use this file to discover all available pages before exploring further.
Bearer 认证头的格式为 Bearer ,其中 是你的认证令牌。
爬虫的起始点。
要爬取的最大页面数。推荐用于大多数用例,如爬取整个网站。
使用 glob 语法在爬虫中包含的 URL 路径模式。 默认为 /**,包括所有 URL。使用类似 /blog/** 的模式来爬取特定部分(例如,仅博客页面),/products/*.html 用于产品页面,或为不同部分使用多个模式。支持标准 glob 特性,如 *(任意字符)和 **(递归匹配)。
在 glob 模式中排除的 URL 路径名称。例如:/careers/**。排除的 URL 将优先于包含的 URL。
爬虫的最大深度。用于仅提取最多 n 级链接。
爬取一级外部链接。
包含网站的子域名。默认值为 false。
可选的搜索查询,用于查找特定链接并按相关性排序结果。
可选的数字,仅爬取每个页面上搜索查询中最相关的前 N 个链接。
在 n 秒后结束爬虫,并完成到那时为止的页面。可能会比提供的超时时间多花费约 10 秒。
是否遵循 robots.txt 规则。如果设置为 false,爬虫将不顾 robots.txt 的禁止指令抓取网站。默认值为 true。
控制每个单独页面从 Olostep API 请求的内容。所有字段都是可选的。
爬虫启动成功。
爬虫 ID
The kind of object. "crawl" for this endpoint.
in_progress 或 completed
Created time in epoch
Created time in date
The current depth of the crawl process.
Count of pages crawled