OlostepのDocumentation Index
Fetch the complete documentation index at: https://docs.olostep.com/llms.txt
Use this file to discover all available pages before exploring further.
/v1/scrapesエンドポイントを使用して、リアルタイムで任意のURLからLLMに適したMarkdown、HTML、テキスト、スクリーンショット、または構造化されたJSONを抽出できます。
- クリーンなMarkdown、構造化データ、スクリーンショット、またはHTMLを出力
- ParsersまたはLLM extractionを通じてJSONを抽出
- 動的コンテンツを処理: JavaScriptでレンダリングされたサイト、アクションを介したログインフロー、PDF
URLのスクレイピング
/v1/scrapesエンドポイントを使用して、単一のURLをスクレイプし、出力形式を選択します。
インストール
使用方法
このエンドポイントを使用して、単一のURLをスクレイプし、出力形式を選択できます。必須のパラメータはurl_to_scrapeとformatsです。
その他の一般的なパラメータには、wait_before_scraping(ミリ秒単位)、remove_css_selectors(デフォルト、なし、またはセレクタの配列)、およびcountryがあります。
レスポンス
APIはレスポンスとしてscrapeオブジェクトを返します。
scrapeにはidやresultのようなプロパティがあります。
resultオブジェクトには次のフィールドがあります(formatsパラメータに応じて、いくつかはnullになる可能性があります):
html_content: ページのHTMLコンテンツ。これを取得するにはformats: ["html"]を渡します。markdown_content: ページのMDコンテンツ。これを取得するにはformats: ["markdown"]を渡します。text_content: ページのテキストコンテンツ。これを取得するにはformats: ["text"]を渡します。json_content: ページのJSONコンテンツ。これを取得するにはformats: ["json"]を渡し、parserまたはllm_extractパラメータも提供します。screenshot_hosted_url: スクリーンショットのホストされたURL。html_hosted_url: HTMLコンテンツのホストされたURLmarkdown_hosted_url: MarkdownコンテンツのホストされたURLjson_hosted_url: JSONコンテンツのホストされたURLtext_hosted_url: テキストコンテンツのホストされたURLlinks_on_page: ページ上のリンクpage_metadata: ページのメタデータ
スクレイプ形式
formatsを通じて1つ以上の出力形式を選択します:
markdown: LLMに適したMarkdownhtml: クリーンなHTMLtext: プレーンテキストjson: 構造化された出力(パーサーまたはllm_extractを介して)raw_pdf: ホストされたURLに抽出された生のPDFバイトscreenshot: アクションを介してスクリーンショットをキャプチャし、ホストされたURLを返す
result内に*_contentフィールドとして返され、*_hosted_urlも返されます。
構造化データの抽出
構造化されたJSONを抽出する方法は2つあります:Parsersを使用するか、LLM抽出を使用します。パーサーを使用する(スケールにおすすめ)
formats: ["json"]を定義し、パーサーidを提供します。
LLM抽出を使用する(スキーマおよび/またはプロンプト)
llm_extractにJSONスキーマ(schema)および/または自然言語の指示(prompt)を提供します。両方のパラメータを渡すことができますが、両方が提供された場合、schemaが優先されます。
代わりに、promptだけを渡すと、LLMはプロンプトに基づいてデータを抽出し、データ構造を独自に決定します。
result.json_contentは文字列化されたJSONを返します。オブジェクトが必要な場合は、コード内で解析してください。
アクションを使用したページとの対話
動的なサイトと対話するために、スクレイピング前にアクションを実行します。サポートされているアクション:waitとmillisecondsclickとselectorfill_inputとselectorおよびvaluescrollとdirectionおよびamount
waitを使用することがよくあります。
例
markdown_content)が含まれます。
ユースケース
以下は、/scrapesエンドポイントを使用している顧客の実用的なアプリケーションのいくつかです。
コンテンツ分析とリサーチ
- 競合分析: 競合他社のウェブサイトから製品詳細、価格、機能を抽出
- 市場調査: ランディングページ、製品説明、顧客の声を分析
- 学術研究: 科学出版物や研究ポータルから特定のデータを収集
- 法的文書: 公式ウェブサイトからケーススタディ、規制、または法的先例を抽出
Eコマースと小売
- 動的価格戦略: 競合店舗からリアルタイムの製品価格を取得
- 製品情報管理: 詳細な仕様と説明を抽出
- 在庫/インベントリ監視: 他の小売業者での製品の在庫状況を確認
- レビュー分析: 特定の製品に対する消費者のフィードバックと感情を収集
マーケティングとコンテンツ作成
- コンテンツキュレーション: ニュースレターのために関連する記事やブログ投稿を抽出
- SEO分析: 競合他社のキーワード使用、メタディスクリプション、ページ構造を調査
- リードジェネレーション: ビジネスディレクトリや企業ページから連絡先情報を抽出
- インフルエンサーリサーチ: インフルエンサープロフィールからエンゲージメントメトリクスとコンテンツスタイルを収集
- パーソナライズされたソーシャルメディア生成: 顧客のウェブサイトを分析してAI駆動のソーシャルメディアマーケティングを作成
データアプリケーション
- AIトレーニングデータ収集: 機械学習モデルのための特定の例を収集
- カスタムナレッジベース構築: ソフトウェアサイトからドキュメントや指示を抽出
- 歴史データアーカイブ: 特定の時点でのウェブサイトコンテンツを保存
- 構造化データ抽出: ウェブコンテンツを分析のためのフォーマットされたデータセットに変換
モニタリングとアラート
- 規制コンプライアンスモニタリング: 法的または規制ウェブサイトの変更を追跡
- 危機管理: 特定のイベントや組織の言及をニュースサイトで監視
- イベント追跡: 会場や主催者のウェブサイトからのイベント詳細を抽出
- サービスステータスモニタリング: 特定のプラットフォームやツールのサービスステータスページを確認
出版とメディア
- ニュース集約: 公式ソースからの速報ニュースを抽出
- メディアモニタリング: ニュースサイトで特定のトピックを追跡
- コンテンツ検証: 主張や声明をファクトチェックするための情報を抽出
- マルチメディア抽出: メディアライブラリのために埋め込まれたビデオ、画像、またはオーディオを収集
金融アプリケーション
- 投資リサーチ: 企業ウェブサイトから財務諸表や年次報告書を抽出
- 経済指標: 政府や金融機関のウェブサイトから経済データを収集
- 暗号通貨データ: リアルタイムの価格と市場キャップ情報を抽出
- 金融ニュース分析: 特定の市場シグナルのために金融ニュースサイトを監視
技術的なアプリケーション
- APIドキュメント抽出: 参照用の技術文書を収集
- 統合テスト: サードパーティ統合を検証するためにウェブサイト要素を抽出
- アクセシビリティテスト: アクセシビリティ標準への準拠のためにウェブサイト構造を分析
- ウェブアーカイブ作成: 歴史的保存のためにウェブサイトコンテンツ全体をキャプチャ
統合シナリオ
- CRMシステム: 企業ウェブサイトやLinkedinからのデータで顧客プロファイルを強化
- コンテンツ管理システム: 関連する外部コンテンツをインポート
- ビジネスインテリジェンストール: 外部市場情報で内部データを補完
- プロジェクト管理ソフトウェア: クライアントのウェブサイトから仕様や要件を抽出
- カスタムダッシュボード: 内部メトリクスと並んで抽出されたデータを表示
エラーハンドリング
すべてのエラーは共通のエンベロープ形状に従います。error.typeとerror.codeをチェックしてプログラム的に分岐します:
| HTTP | error.type | error.code | 意味 |
|---|---|---|---|
| 400 | invalid_request_error | dns_resolution_failed | ドメインが存在しないか、URLにタイプミスがあります。 |
| 400 | invalid_request_error | invalid_url | URLが不正です。 |
| 502 | invalid_request_error | tls_error | ウェブサイトが無効または互換性のないTLS/SSL証明書を持っています。error.detailには低レベルのSSLコードが含まれます。 |
| 504 | request_timeout | scrape_poll_timeout | スクレイプが約55秒の待機予算内に終了しませんでした。 |
DNS失敗 (400)
ドメインが解決しません。URLにタイプミスがないか確認してください。TLS/SSLエラー (502)
ターゲットウェブサイトが壊れているか、互換性のないHTTPS構成を持っています。error.detailは診断のための特定のSSLエラーコードを提供します。error.codeは常にtls_errorです。