使用提供的配置抓取一个 URL 并获取内容。
Documentation Index
Fetch the complete documentation index at: https://docs.olostep.com/llms.txt
Use this file to discover all available pages before exploring further.
Bearer 认证头的格式为 Bearer ,其中 是你的认证令牌。
开始抓取的URL。
在开始抓取前等待的时间,以毫秒为单位。
你想要内容的格式。
html, markdown, text, json, raw_pdf, screenshot 选项:从内容中移除某些CSS选择器。你也可以传递一个JSON字符串化的特定选择器数组来移除。当此选项设置为默认时,移除的CSS选择器为 ['nav','footer','script','style','noscript','svg',[role=alert],[role=banner],[role=dialog],[role=alertdialog],[role=region][aria-label*=skip i],[aria-modal=true]]
default, none, array 在获取内容之前对页面执行的操作。
加载请求的住宅国家。 支持的值有: - US (United States) - CA (Canada) - IT (Italy) - IN (India) - GB (England) - JP (Japan) - MX (Mexico) - AU (Australia) - ID (Indonesia) - UA (UAE) - RU (Russia) - RANDOM 一些操作,如抓取Google搜索和Google新闻,支持所有国家。
指定要使用的HTML转换器(如果有)。使用Postlight的Mercury Parser库来移除广告和其他不需要的内容。
postlight, none 选项:从抓取的内容中移除图像。默认为false。
要从内容中移除的类名列表。
当定义json作为格式时,你可以使用此参数指定要使用的解析器。解析器对于从网页中提取结构化内容非常有用。Olostep为大多数常见网页内置了一些解析器,你也可以创建自己的解析器。
使用此选项,你可以获取你抓取的页面上存在的所有链接。
屏幕尺寸配置。可以通过 screen_type 获取预设尺寸:desktop (1920x1080)、mobile (414x896) 或 default (768x1024)。
用户定义的元数据。目前尚不支持。