/v1/crawls 端点,你可以抓取一个网站并获取所有页面的内容。
- 抓取一个网站并获取所有子页面的内容(或限制抓取的深度)
- 使用特殊模式抓取特定页面(例如
/blog/**) - 传递一个
webhook_url以在抓取完成时收到通知 - 搜索查询以仅查找特定页面并按相关性排序
安装
开始抓取
提供起始URL,包含/排除URL通配符,以及max_pages。可选:max_depth、include_external、include_subdomain、search_query、top_n、webhook_url、timeout。
crawl 对象作为响应。crawl 对象有一些属性,如 id 和 status,你可以用来跟踪抓取。
检查抓取状态
轮询抓取以跟踪进度,直到status 为 completed。
webhook_url,以在抓取完成时收到通知。
列出页面(使用游标分页/流式处理)
获取页面并使用cursor 和 limit 进行迭代。适用于抓取 in_progress 或 completed 状态。
搜索查询(限制为前 N 个相关)
在开始时使用search_query,并可选择使用 search_query 过滤列表。使用 top_n 限制每页探索。
获取内容
使用每个页面的retrieve_id 和 /v1/retrieve 来获取 html_content 和/或 markdown_content。
注意事项
- 分页是基于游标的;重复请求直到
cursor不存在。 /v1/crawls/{crawl_id}/pages上的内容字段已弃用;建议使用/v1/retrieve。- Webhooks:设置
webhook_url以在抓取完成时接收POST。