/v1/scrapes 端点,你可以实时从任何 URL 提取适合 LLM 的 Markdown、HTML、文本、截图或结构化 JSON。
有关 API 详细信息,请参阅 抓取端点 API 参考。
抓取一个 URL
使用/v1/scrapes 端点抓取单个 URL,并选择输出格式。
安装
使用方法
你可以使用该端点抓取单个 URL,并选择输出格式。必需的参数是url_to_scrape 和 formats。
其他一些常用参数包括 wait_before_scraping(以毫秒为单位)、remove_css_selectors(默认、无或选择器数组)和 country。
响应
API 返回一个scrape 对象作为响应。
scrape 有一些属性,如 id 和 result。
result 对象有以下字段(根据 formats 参数,有些可能为 null):
html_content: 页面的 HTML 内容。传递formats: ["html"]获取此内容。markdown_content: 页面的 MD 内容。传递formats: ["markdown"]获取此内容。text_content: 页面的文本内容。传递formats: ["text"]获取此内容。json_content: 页面的 JSON 内容。传递formats: ["json"]获取此内容,并提供parser或llm_extract参数。screenshot_hosted_url: 截图的托管 URL。html_hosted_url: HTML 内容的托管 URL。markdown_hosted_url: Markdown 内容的托管 URL。json_hosted_url: JSON 内容的托管 URL。text_hosted_url: 文本内容的托管 URL。links_on_page: 页面的链接。page_metadata: 页面的元数据。
抓取格式
通过formats 选择一个或多个输出格式:
markdown: 适合 LLM 的 markdownhtml: 清理后的 HTMLtext: 纯文本json: 结构化输出(通过解析器或 llm_extract)raw_pdf: 提取到托管 URL 的原始 PDF 字节screenshot: 通过动作设置以捕获截图并返回托管 URL
result 中以 *_content 字段和 *_hosted_url 返回。
提取结构化数据
你可以通过两种方式提取结构化 JSON:使用 Parsers 或 LLM 提取。使用 Parser(推荐用于规模化)
定义formats: ["json"] 并提供一个解析器 id。
使用 LLM 提取(模式和/或提示)
提供llm_extract 以及 JSON Schema(schema)和/或自然语言指令(prompt)。你可以同时传递这两个参数,但如果都提供了,schema 优先。
如果你只传递 prompt,LLM 将根据提示提取数据,并自行决定数据结构。
result.json_content 返回的是字符串化的 JSON。如果你需要对象,请在代码中解析它。
使用动作与页面交互
在抓取之前执行动作以与动态网站交互。支持的动作:wait与millisecondsclick与selectorfill_input与selector和valuescroll与direction和amount
wait 以允许页面加载。
示例
markdown_content)。
使用案例
以下是一些客户使用/scrapes 端点的实际应用。
内容分析与研究
- 竞争分析:从竞争对手网站提取产品详情、定价和功能
- 市场研究:分析登陆页面、产品描述和客户评价
- 学术研究:从科学出版物或研究门户收集特定数据
- 法律文档:从官方网站提取案例研究、法规或法律先例
电子商务与零售
- 动态定价策略:从竞争商店获取实时产品定价
- 产品信息管理:提取详细规格和描述
- 库存监控:检查其他零售商的产品可用性
- 评论分析:收集特定产品的消费者反馈和情感
营销与内容创作
- 内容策划:为新闻简报提取相关文章和博客文章
- SEO 分析:检查竞争对手的关键词使用、元描述和页面结构
- 潜在客户生成:从商业目录或公司页面提取联系信息
- 影响者研究:收集影响者资料的参与度指标和内容风格
- 个性化社交媒体生成:通过分析客户网站创建 AI 驱动的社交媒体营销
数据应用
- AI 训练数据收集:为机器学习模型收集特定示例
- 自定义知识库构建:从软件网站提取文档或说明
- 历史数据档案:在特定时间点保存网站内容
- 结构化数据提取:将网页内容转换为格式化数据集以供分析
监控与警报
- 合规性监控:跟踪法律或监管网站的更改
- 危机管理:监控新闻网站以获取特定事件或组织的提及
- 事件跟踪:从场地或组织者网站提取即将举行的事件的详细信息
- 服务状态监控:检查特定平台或工具的服务状态页面
出版与媒体
- 新闻聚合:从官方来源提取突发新闻
- 媒体监控:在新闻网站上跟踪特定主题
- 内容验证:提取信息以核实声明或陈述
- 多媒体提取:为媒体库收集嵌入的视频、图像或音频
金融应用
- 投资研究:从公司网站提取财务报表或年度报告
- 经济指标:从政府或金融机构网站收集经济数据
- 加密货币数据:提取实时定价和市值信息
- 金融新闻分析:监控金融新闻网站以获取特定市场信号
技术应用
- API 文档提取:收集技术文档以供参考
- 集成测试:提取网站元素以验证第三方集成
- 可访问性测试:分析网站结构以符合可访问性标准
- 网络档案创建:捕获完整网站内容以供历史保存
集成场景
- CRM 系统:通过公司网站或 Linkedin 增强客户档案
- 内容管理系统:导入相关的外部内容
- 商业智能工具:补充外部市场信息与内部数据
- 项目管理软件:从客户网站提取规格或需求
- 自定义仪表板:将提取的数据与内部指标一起显示