機能
この統合は、ウェブデータを自動的に抽出するための4つの強力なAPIを提供します:ウェブサイトをスクレイプ
任意の単一URLから複数の形式(Markdown、HTML、JSON、テキスト)でコンテンツを抽出
URLを一括スクレイプ
最大100,000のURLを並行して処理。大規模なデータ抽出に最適
クロールを作成
リンクをたどって自律的にウェブサイト全体を発見しスクレイプ
マップを作成
サイト構造分析とコンテンツ発見のためにウェブサイトからすべてのURLを抽出
インストール
セットアップ
1. パッケージをインストール
2. 統合をインポートして登録
Mastraの設定ファイルにて:3. APIキーを設定
Olostep APIキーを環境変数として設定:.envファイルにて:
利用可能なAPI
この統合は、Mastraエージェントが使用できる4つのAPIを公開しています:scrapeWebsite
単一のURLからコンテンツを抽出します。複数の形式とJavaScriptレンダリングをサポート。 使用例:- 特定のページの変更を監視
- eコマースサイトから商品情報を抽出
- ニュース記事やブログ投稿からデータを収集
- コンテンツ集約のためのコンテンツを取得
Olostep APIキー
スクレイプするウェブサイトのURL(http://またはhttps://を含む必要があります)
出力形式: [‘html’, ‘markdown’, ‘json’, ‘text’]
ロケーション特有のコンテンツのための国コード(例:“US”, “GB”, “CA”)
JavaScriptレンダリングのための待機時間(ミリ秒)(0-10000)
特殊な抽出のためのオプションのパーサーID(例:“@olostep/amazon-product”)
id- スクレイプIDurl_to_scrape- スクレイプされたURLresult.markdown_content- Markdownコンテンツresult.html_content- HTMLコンテンツresult.json_content- JSONコンテンツresult.text_content- テキストコンテンツresult.screenshot_hosted_url- スクリーンショットURL(利用可能な場合)result.markdown_hosted_url- ホストされたMarkdown URLobject- オブジェクトタイプ(“scrape”)created- Unixタイムスタンプ
batchScrape
複数のURLを並行して処理(最大100,000件まで)。大規模なデータ抽出に最適。 使用例:- 商品カタログ全体をスクレイプ
- 複数の検索結果からデータを抽出
- スプレッドシートからのURLリストを処理
- 大量コンテンツの抽出
Olostep APIキー
urlとオプションのcustom_idフィールドを持つオブジェクトの配列例: [{"url":"https://example.com","custom_id":"site1"}]すべてのURLの出力形式
ロケーション特有のスクレイピングのための国コード
JavaScriptレンダリングのための待機時間
特殊な抽出のためのオプションのパーサーID
batch_id- バッチID(後で結果を取得するために使用)status- 処理ステータスobject- オブジェクトタイプ(“batch”)
createCrawl
リンクをたどって自律的にウェブサイト全体を発見しスクレイプ。ドキュメントサイト、ブログ、コンテンツリポジトリに最適。 使用例:- ドキュメントサイト全体をクロールしてアーカイブ
- ウェブサイトからすべてのブログ投稿を抽出
- ウェブコンテンツからナレッジベースを構築
- ウェブサイト構造の変化を監視
Olostep APIキー
クロールの開始URL(http://またはhttps://を含む必要があります)
クロールする最大ページ数
ページ上のリンクをたどるかどうか
スクレイプされたコンテンツの形式
ロケーション特有のクロールのためのオプションの国コード
特殊なコンテンツ抽出のためのオプションのパーサーID
id- クロールID(後で結果を取得するために使用)object- オブジェクトタイプ(“crawl”)status- クロールステータスcreated- Unixタイムスタンプ
createMap
コンテンツ発見とサイト構造分析のためにウェブサイトからすべてのURLを抽出。 使用例:- サイトマップとサイト構造図を構築
- 一括スクレイプ前にすべてのページを発見
- 壊れたページや欠落ページを発見
- SEO監査と分析
Olostep APIキー
リンクを抽出するウェブサイトのURL(http://またはhttps://を含む必要があります)
URLをフィルタリングするためのオプションの検索クエリ(例:“blog”)
返されるURLの数を制限
特定のパスを含めるためのグロブパターン(例:[ “/blog/**” ])
特定のパスを除外するためのグロブパターン(例:[ “/admin/**” ])
id- マップIDobject- オブジェクトタイプ(“map”)url- ウェブサイトURLtotal_urls- 発見されたURLの総数urls- 発見されたURLの配列
エージェントでの使用
基本的なエージェント例
ウェブサイトをスクレイプできるエージェントを作成:エージェントワークフロー例
コンテンツを発見しスクレイプするリサーチワークフローを構築:人気のユースケース
リサーチエージェント
自律的にトピックをリサーチするエージェントを構築:マルチソースリサーチ
マルチソースリサーチ
ワークフロー:
- ユーザーが尋ねる: “AIトレンドをリサーチ”
- エージェントが
createMapを使用して関連ページを発見 - エージェントが
batchScrapeを使用してコンテンツを抽出 - エージェントが分析し、発見を要約
- 構造化されたリサーチレポートを返す
競合モニタリング
競合モニタリング
ワークフロー:
- 毎日のモニタリングをスケジュール
scrapeWebsiteを使用して競合ページを確認- 前回のデータと比較
- 重要な変更をアラート
- 週次レポートを生成
コンテンツ集約
コンテンツ集約
ワークフロー:
createCrawlを使用してすべてのブログ投稿を発見batchScrapeを使用してコンテンツを抽出- AIで処理して主要トピックを抽出
- ナレッジベースに保存
- コンテンツカレンダーを生成
Eコマースインテリジェンス
商品と価格をモニタリング:SEO分析
ウェブサイトの構造とコンテンツを分析:専門パーサー
Olostepは人気のあるウェブサイト向けの事前構築されたパーサーを提供しています。parserパラメータで使用:
Google検索
@olostep/google-search抽出: 検索結果、タイトル、スニペット、URLGoogleマップ
@olostep/google-maps抽出: ビジネス情報、レビュー、評価、場所パーサーの使用
parserパラメータにパーサーIDを追加:
ベストプラクティス
複数のURLに対してバッチ処理を使用
複数のURLに対してバッチ処理を使用
3〜5以上のURLをスクレイプする場合は、複数の
scrapeWebsite呼び出しの代わりにbatchScrapeを使用してください。バッチ処理は:- より高速(並列処理)
- よりコスト効果が高い
- 管理が容易
- レート制限に対してより良い
適切な待機時間を設定
適切な待機時間を設定
JavaScriptが多用されているサイトの場合、
wait_before_scrapingパラメータを使用:- シンプルなサイト: 0-1000ms
- 動的なサイト: 2000-3000ms
- JavaScriptが多用されている場合: 5000-8000ms
専門パーサーを使用
専門パーサーを使用
人気のあるウェブサイト(Amazon、LinkedIn、Google)には事前構築されたパーサーを使用:
- 構造化データを自動的に取得
- より信頼性の高い抽出
- カスタムパーシングの必要なし
- Olostepによって維持管理
非同期操作を処理
非同期操作を処理
バッチ、クロール、マップ操作は非同期です:
- 返されたID(batch_id、crawl_id、map_id)を保存
- 完了をポーリングするか、Webhookを使用
- 取得のための別のワークフローを設定
エラーハンドリング
エラーハンドリング
常にAPI呼び出しをtry-catchブロックでラップ:
レート制限
レート制限
レート制限に注意してください:
- リクエストを遅延で間隔を空ける
- 可能な場合はバッチ処理を使用
- Olostepダッシュボードで使用状況を監視
- 必要に応じてプランをアップグレード
完全な例
リサーチエージェントを構築する完全な例はこちら:トラブルシューティング
認証に失敗しました
認証に失敗しました
エラー: “無効なAPIキー”解決策:
- ダッシュボードからAPIキーを確認
- APIキーが環境変数に設定されていることを確認
- APIキーがアクティブであることを確認
- APIキーに余分なスペースがないか確認
APIが見つかりません
APIが見つかりません
エラー: “APIが見つかりません”または”統合が登録されていません”解決策:
- 統合を作成した後に
registerApis()が呼び出されていることを確認 - 統合がMastra設定に追加されていることを確認
- 統合名が’olostep’であることを確認
- 変更後にMastraサーバーを再起動
スクレイプが空のコンテンツを返す
スクレイプが空のコンテンツを返す
エラー: コンテンツフィールドが空解決策:
wait_before_scraping時間を増やす- ウェブサイトがログインを必要としているか確認
- 異なる形式(HTML対Markdown)を試す
- URLがアクセス可能であることを確認
- サイトが自動アクセスをブロックしていないか確認
レート制限を超過しました
レート制限を超過しました
エラー: “レート制限を超過しました”解決策:
- リクエストを遅延で間隔を空ける
- 個別のスクレイプの代わりにバッチ処理を使用
- Olostepプランをアップグレード
- ダッシュボードでレート制限を確認
TypeScriptエラー
TypeScriptエラー
エラー: モジュールが見つからないまたは型エラー解決策:
@mastra/coreがインストールされていることを確認- TypeScriptバージョンの互換性を確認
- すべての依存関係がインストールされていることを確認
- 再ビルド:
npm run build
価格
OlostepはAPI使用量に基づいて課金され、Mastraとは独立しています:- スクレイプ: スクレイプごとに課金
- バッチ: バッチ内のURLごとに課金
- クロール: クロールしたページごとに課金
- マップ: マップ操作ごとに課金
サポート
Mastra統合に関するヘルプが必要ですか?関連リソース
Scrapes API
Scrapesエンドポイントについて学ぶ
Batches API
Batchesエンドポイントについて学ぶ
Crawls API
Crawlsエンドポイントについて学ぶ
Maps API
Mapsエンドポイントについて学ぶ
Zapier統合
Zapierワークフローで自動化
LangChain統合
LangChainでAIエージェントを構築
始めましょう
ウェブスクレイピング機能を持つAIエージェントを構築する準備はできましたか?パッケージをインストール
npmから@olostep/mastra-toolsをインストール