機能
この統合は、ウェブデータの自動抽出のための4つの強力なAPIを提供します:ウェブサイトをスクレイプ
任意の単一URLから複数の形式(Markdown、HTML、JSON、テキスト)でコンテンツを抽出
URLをバッチスクレイプ
最大100,000のURLを並行して処理。大規模なデータ抽出に最適
クロールを作成
リンクをたどってウェブサイト全体を自律的に発見しスクレイプ
マップを作成
サイト構造分析とコンテンツ発見のためにウェブサイトからすべてのURLを抽出
インストール
セットアップ
1. パッケージをインストール
2. 統合をインポートして登録
あなたのMastra設定ファイルで:3. APIキーを設定
Olostep APIキーを環境変数として設定:.envファイルに:
利用可能なAPI
この統合は、Mastraエージェントが使用できる4つのAPIを公開します:scrapeWebsite
単一のURLからコンテンツを抽出します。複数の形式とJavaScriptレンダリングをサポート。 使用例:- 特定のページの変更を監視
- ECサイトから商品情報を抽出
- ニュース記事やブログ投稿からデータを収集
- コンテンツ集約のためのコンテンツを取得
あなたのOlostep APIキー
スクレイプするウェブサイトのURL(http://またはhttps://を含む必要があります)
出力形式: [‘html’, ‘markdown’, ‘json’, ‘text’]
地域特有のコンテンツのための国コード(例:“US”, “GB”, “CA”)
JavaScriptレンダリングのための待機時間(ミリ秒単位、0-10000)
特殊な抽出のためのオプションのパーサーID(例:“@olostep/amazon-product”)
id- スクレイプIDurl_to_scrape- スクレイプされたURLresult.markdown_content- Markdownコンテンツresult.html_content- HTMLコンテンツresult.json_content- JSONコンテンツresult.text_content- テキストコンテンツresult.screenshot_hosted_url- スクリーンショットURL(利用可能な場合)result.markdown_hosted_url- ホストされたMarkdown URLobject- オブジェクトタイプ(“scrape”)created- Unixタイムスタンプ
batchScrape
複数のURLを並行して処理(最大100,000件まで)。大規模なデータ抽出に最適。 使用例:- 商品カタログ全体をスクレイプ
- 複数の検索結果からデータを抽出
- スプレッドシートからのURLリストを処理
- 大量のコンテンツ抽出
あなたのOlostep APIキー
urlとオプションのcustom_idフィールドを持つオブジェクトの配列例: [{"url":"https://example.com","custom_id":"site1"}]すべてのURLの出力形式
地域特有のスクレイピングのための国コード
JavaScriptレンダリングのための待機時間(ミリ秒単位)
特殊な抽出のためのオプションのパーサーID
batch_id- バッチID(後で結果を取得するために使用)status- 処理ステータスobject- オブジェクトタイプ(“batch”)
createCrawl
リンクをたどってウェブサイト全体を自律的に発見しスクレイプ。ドキュメントサイト、ブログ、コンテンツリポジトリに最適。 使用例:- ドキュメントサイト全体をクロールしてアーカイブ
- ウェブサイトからすべてのブログ投稿を抽出
- ウェブコンテンツからナレッジベースを構築
- ウェブサイト構造の変更を監視
あなたのOlostep APIキー
クロールの開始URL(http://またはhttps://を含む必要があります)
クロールする最大ページ数
ページ上で見つかったリンクをたどるかどうか
スクレイプされたコンテンツの形式
地域特有のクロールのためのオプションの国コード
特殊なコンテンツ抽出のためのオプションのパーサーID
id- クロールID(後で結果を取得するために使用)object- オブジェクトタイプ(“crawl”)status- クロールステータスcreated- Unixタイムスタンプ
createMap
コンテンツ発見とサイト構造分析のためにウェブサイトからすべてのURLを抽出。 使用例:- サイトマップとサイト構造図を作成
- バッチスクレイプ前にすべてのページを発見
- 壊れたページや欠落したページを見つける
- SEO監査と分析
あなたのOlostep APIキー
リンクを抽出するウェブサイトのURL(http://またはhttps://を含む必要があります)
URLをフィルタリングするためのオプションの検索クエリ(例:“blog”)
返されるURLの数を制限
特定のパスを含むためのグロブパターン(例:[ “/blog/**” ])
特定のパスを除外するためのグロブパターン(例:[ “/admin/**” ])
id- マップIDobject- オブジェクトタイプ(“map”)url- ウェブサイトURLtotal_urls- 見つかったURLの総数urls- 発見されたURLの配列
エージェントとの使用
基本的なエージェントの例
ウェブサイトをスクレイプできるエージェントを作成:エージェントワークフローの例
コンテンツを発見しスクレイプするリサーチワークフローを構築:人気のある使用例
リサーチエージェント
自律的にトピックを調査するエージェントを構築:マルチソースリサーチ
マルチソースリサーチ
ワークフロー:
- ユーザーが尋ねる: “AIのトレンドを調査”
- エージェントが
createMapを使用して関連ページを発見 - エージェントが
batchScrapeを使用してコンテンツを抽出 - エージェントが分析し、調査結果を要約
- 構造化されたリサーチレポートを返す
競合他社の監視
競合他社の監視
ワークフロー:
- 毎日の監視をスケジュール
scrapeWebsiteを使用して競合他社のページをチェック- 前回のデータと比較
- 重要な変更をアラート
- 週次レポートを生成
コンテンツ集約
コンテンツ集約
ワークフロー:
createCrawlを使用してすべてのブログ投稿を発見batchScrapeを使用してコンテンツを抽出- AIで処理して主要トピックを抽出
- ナレッジベースに保存
- コンテンツカレンダーを生成
Eコマースインテリジェンス
商品と価格を監視:SEO分析
ウェブサイトの構造とコンテンツを分析:専門のパーサー
Olostepは人気のあるウェブサイト向けに事前構築されたパーサーを提供しています。parserパラメータで使用:
Google検索
@olostep/google-search抽出: 検索結果、タイトル、スニペット、URLGoogleマップ
@olostep/google-maps抽出: ビジネス情報、レビュー、評価、場所パーサーの使用
parserパラメータにパーサーIDを追加:
ベストプラクティス
複数のURLに対してバッチ処理を使用
複数のURLに対してバッチ処理を使用
3〜5以上のURLをスクレイプする場合は、複数の
scrapeWebsite呼び出しの代わりにbatchScrapeを使用してください。バッチ処理は:- ずっと速い(並行処理)
- よりコスト効果が高い
- 管理が容易
- レート制限に優しい
適切な待機時間を設定
適切な待機時間を設定
JavaScriptが多用されているサイトには、
wait_before_scrapingパラメータを使用:- シンプルなサイト: 0-1000ms
- 動的なサイト: 2000-3000ms
- JavaScriptが重い: 5000-8000ms
専門のパーサーを使用
専門のパーサーを使用
人気のあるウェブサイト(Amazon、LinkedIn、Google)には事前構築されたパーサーを使用:
- 構造化データを自動的に取得
- より信頼性の高い抽出
- カスタム解析が不要
- Olostepによって維持管理
非同期操作の処理
非同期操作の処理
バッチ、クロール、マップ操作は非同期です:
- 返されたID(batch_id、crawl_id、map_id)を保存
- 完了をポーリングまたはWebhookを使用
- 結果を取得するための別のワークフローを設定
エラーハンドリング
エラーハンドリング
常にAPI呼び出しをtry-catchブロックでラップ:
レート制限
レート制限
レート制限に注意:
- リクエストを遅延させて間隔をあける
- 可能な限りバッチ処理を使用
- Olostepダッシュボードで使用状況を監視
- 必要に応じてプランをアップグレード
完全な例
リサーチエージェントを構築する完全な例です:トラブルシューティング
認証に失敗しました
認証に失敗しました
エラー: “無効なAPIキー”解決策:
- ダッシュボードからAPIキーを確認
- APIキーが環境変数に設定されていることを確認
- APIキーがアクティブであることを確認
- APIキーに余分なスペースがないことを確認
APIが見つかりません
APIが見つかりません
エラー: “APIが見つかりません” または “統合が登録されていません”解決策:
- 統合を作成した後に
registerApis()が呼び出されていることを確認 - 統合がMastra設定に追加されていることを確認
- 統合名が’olostep’であることを確認
- 変更後にMastraサーバーを再起動
スクレイプが空のコンテンツを返す
スクレイプが空のコンテンツを返す
エラー: コンテンツフィールドが空解決策:
wait_before_scraping時間を増やす- ウェブサイトがログインを必要としているか確認
- 異なる形式(HTML対Markdown)を試す
- URLがアクセス可能であることを確認
- サイトが自動アクセスをブロックしていないか確認
レート制限を超えました
レート制限を超えました
エラー: “レート制限を超えました”解決策:
- リクエストを遅延させて間隔をあける
- 個々のスクレイプの代わりにバッチ処理を使用
- Olostepプランをアップグレード
- ダッシュボードでレート制限を確認
TypeScriptエラー
TypeScriptエラー
エラー: モジュールが見つからないまたは型エラー解決策:
@mastra/coreがインストールされていることを確認- TypeScriptのバージョン互換性を確認
- すべての依存関係がインストールされていることを確認
- 再ビルド:
npm run build
価格
OlostepはAPI使用量に基づいて課金され、Mastraとは独立しています:- スクレイプ: スクレイプごとに課金
- バッチ: バッチ内のURLごとに課金
- クロール: クロールされたページごとに課金
- マップ: マップ操作ごとに課金
サポート
Mastra統合に関するヘルプが必要ですか?関連リソース
スクレイプAPI
スクレイプエンドポイントについて学ぶ
バッチAPI
バッチエンドポイントについて学ぶ
クロールAPI
クロールエンドポイントについて学ぶ
マップAPI
マップエンドポイントについて学ぶ
Zapier統合
Zapierワークフローで自動化
LangChain統合
LangChainでAIエージェントを構築
Mastraウェブサイト
Mastraプラットフォーム
はじめに
ウェブスクレイピング機能を備えたAIエージェントを構築する準備はできましたか?パッケージをインストール
npmから@olostep/mastra-toolsをインストール