/v1/crawls 端点,你可以爬取一个网站并获取所有页面的内容。
- 爬取一个网站并获取所有子页面的内容(或限制爬取的深度)
- 使用特殊模式爬取特定页面(例如
/blog/**) - 传递一个
webhook_url以在爬取完成时收到通知 - 搜索查询以仅查找特定页面并按相关性排序
安装
开始爬取
提供起始 URL,包含/排除 URL 模式,以及max_pages。可选项:max_depth、include_external、include_subdomain、search_query、top_n、webhook_url、timeout。
crawl 对象作为响应。crawl 对象有一些属性,比如 id 和 status,你可以用来跟踪爬取。
检查爬取状态
轮询爬取以跟踪进度,直到status 为 completed。
webhook_url,以便在爬取完成时收到通知。
列出页面(使用游标分页/流式传输)
获取页面并使用cursor 和 limit 进行迭代。在爬取 in_progress 或 completed 时工作。
搜索查询(限制为前 N 个相关)
在开始时使用search_query,并可选择使用 search_query 过滤列表。使用 top_n 限制每页探索。
获取内容
使用每个页面的retrieve_id 与 /v1/retrieve 来获取 html_content 和/或 markdown_content。
注意事项
- 分页是基于游标的;重复请求直到
cursor不存在。 /v1/crawls/{crawl_id}/pages上的内容字段已弃用;请使用/v1/retrieve。- Webhooks:设置
webhook_url以在爬取完成时接收 POST。