特徴
このインテグレーションは、ウェブデータの自動抽出のための6つの強力な操作を提供します:ウェブサイトをスクレイピング
任意の単一URLから複数の形式(Markdown、HTML、JSON、テキスト)でコンテンツを抽出
検索
ウェブを検索し、構造化された結果を取得
回答 (AI)
AIを使ってウェブを検索し、出典と引用付きの構造化された回答を取得
URLをバッチスクレイピング
最大10,000のURLを同時にスクレイピング。大規模なデータ抽出に最適
クロールを作成
URLのサブページのコンテンツを取得。自動的にウェブサイト全体を発見しスクレイピング
マップを作成
サイト構造分析とコンテンツ発見のためにウェブサイト上のすべてのURLを取得
インストール
1. ノードをインストール
npmを使用してOlostepノードパッケージをインストール:2. アカウントを接続
ワークフローで初めてOlostepノードを使用する際、資格情報を設定する必要があります:- ワークフローに「Olostep Scrape」ノードを追加
- ノードをクリックして設定を開く
- 「新しい資格情報を作成」をクリックするか、既存の資格情報を選択
- Olostep APIキーを入力
- 「保存」をクリックして資格情報を保存
利用可能なアクション
ウェブサイトをスクレイピング
単一のURLからコンテンツを抽出します。複数の形式とJavaScriptレンダリングをサポート。 ユースケース:- 特定のページの変更を監視
- eコマースサイトからの製品情報抽出
- ニュース記事やブログ投稿からのデータ収集
- コンテンツ集約のためのコンテンツ取得
スクレイピングするウェブサイトのURL(http://またはhttps://を含む必要があります)
形式を選択:Markdown、HTML、JSON、またはプレーンテキスト
ロケーション固有のコンテンツのための国コード(例:“US”, “GB”, “CA”)
JavaScriptレンダリングのための待機時間(0-10000ミリ秒)
特殊な抽出のためのオプションのパーサーID(例:“@olostep/amazon-product”)
- スクレイプID
- スクレイプされたURL
- Markdownコンテンツ
- HTMLコンテンツ
- JSONコンテンツ
- テキストコンテンツ
- ステータス
- タイムスタンプ
- スクリーンショットURL(利用可能な場合)
- ページメタデータ
競合他社の価格を監視
競合他社の価格を監視
トリガー: スケジュール(毎日午前9時)アクション: Olostep - ウェブサイトをスクレイピング
- URL: 競合他社の製品ページ
- 形式: JSON
- パーサー: @olostep/amazon-product
- 価格データを追跡スプレッドシートに追加
- 価格変更をチームに通知
ブログ投稿を抽出して保存
ブログ投稿を抽出して保存
トリガー: RSSフィード - 新しいアイテムアクション: Olostep - ウェブサイトをスクレイピング
- URL: {{$json.link}}
- 形式: Markdown
- 記事コンテンツをNotionデータベースに保存
リードの充実
リードの充実
トリガー: Google Sheets - 新しい行アクション: Olostep - ウェブサイトをスクレイピング
- URL: シートからの会社ウェブサイト
- 形式: Markdown
- AIを使用して会社情報を抽出
- 充実したデータをシートに追加
検索
指定されたクエリでウェブを検索し、構造化された結果を取得(非AI、パーサーベースの検索結果)。 ユースケース:- 自動化された研究ワークフロー
- リード発見と充実
- 競合分析
- コンテンツ研究
検索クエリ
自動化された研究
自動化された研究
トリガー: スケジュール(毎日午前8時)アクション: Olostep - 検索
- クエリ: “最新のAI開発”
- 重要な情報を抽出してフォーマット
- 研究結果を保存
リード発見
リード発見
トリガー: 手動(ボタン)アクション: Olostep - 検索
- クエリ: ”{{$json.searchTerm}}”
- 連絡先情報と共にリードを保存
URLをバッチスクレイピング
最大10,000のURLを同時にスクレイピング。大規模なデータ抽出に最適。 ユースケース:- 製品カタログ全体をスクレイピング
- 複数の検索結果からデータを抽出
- スプレッドシートからのURLリストを処理
- 大量のコンテンツ抽出
URLとcustom_idフィールドを持つオブジェクトのJSON配列。例:
[{"url":"https://example.com","custom_id":"site1"}]すべてのURLに対して形式を選択:Markdown、HTML、JSON、またはプレーンテキスト
ロケーション固有のスクレイピングのための国コード
JavaScriptレンダリングのための待機時間
特殊な抽出のためのオプションのパーサーID
- バッチID(後で結果を取得するために使用)
- ステータス
- 合計URL
- 作成日時
- リクエストされた形式
- 国コード
- 使用されたパーサー
製品カタログをスクレイピング
製品カタログをスクレイピング
トリガー: Webhook - POSTリクエストを受信アクション: コード - URLをフォーマット
- CSV/リストをJSON配列形式に変換
- URL: {{$json.urlArray}}
- 形式: JSON
- パーサー: @olostep/amazon-product
- バッチIDをシステムに送信して取得
毎日のコンテンツ監視
毎日のコンテンツ監視
トリガー: スケジュール - 毎日午前6時アクション: Google Sheets - 行を読み込む
- 監視するURLを取得
- バッチ配列形式に変換
- すべてのURLを一度に処理
- スクレイピングが完了したことをチームに通知
クロールを作成
URLのサブページのコンテンツを取得。リンクをたどって自動的にウェブサイト全体を発見しスクレイピング。ドキュメントサイト、ブログ、コンテンツリポジトリに最適。 ユースケース:- ドキュメントサイト全体をクロールしてアーカイブ
- ウェブサイトからすべてのブログ投稿を抽出
- ウェブコンテンツからナレッジベースを構築
- ウェブサイト構造の変更を監視
クロールの開始URL(http://またはhttps://を含む必要があります)
クロールする最大ページ数
ページ上で見つかったリンクをたどるかどうか
スクレイピングされたコンテンツの形式
ロケーション固有のクロールのためのオプションの国コード
特殊なコンテンツ抽出のためのオプションのパーサーID
- クロールID(後で結果を取得するために使用)
- オブジェクトタイプ
- ステータス
- 開始URL
- 最大ページ数
- リンクをたどる
- 作成タイムスタンプ
- 形式
ドキュメントサイトをアーカイブ
ドキュメントサイトをアーカイブ
トリガー: スケジュール - 毎月1日の午前0時アクション: Olostep - クロールを作成
- 開始URL: https://docs.example.com
- 最大ページ数: 500
- リンクをたどる: true
- 形式: Markdown
- クロールIDをアーカイブシステムに送信
- クロールが進行中であることをチームに通知
競合他社のコンテンツ分析
競合他社のコンテンツ分析
トリガー: スケジュール - 毎週月曜日の午前9時アクション: Olostep - クロールを作成
- 開始URL: 競合他社のブログURL
- 最大ページ数: 100
- 形式: Markdown
- クロールが完了するのを待つ
- 分析のためにクロールデータを保存
マップを作成
ウェブサイト上のすべてのURLを取得。コンテンツ発見とサイト構造分析のためにウェブサイトからすべてのURLを抽出。 ユースケース:- サイトマップとサイト構造図を構築
- バッチスクレイピング前にすべてのページを発見
- 壊れたページや欠落ページを見つける
- SEO監査と分析
リンクを抽出するウェブサイトのURL(http://またはhttps://を含む必要があります)
URLをフィルタリングするためのオプションの検索クエリ(例:“blog”)
返されるURLの数を制限
特定のパスを含めるためのグロブパターン(例:“/blog/**”)
特定のパスを除外するためのグロブパターン(例:“/admin/**”)
- マップID
- オブジェクトタイプ
- ウェブサイトURL
- 見つかったURLの総数
- URL(JSON配列)
- 検索クエリ
- 上位N制限
発見してスクレイピング
発見してスクレイピング
トリガー: 手動(ボタン)アクション: Olostep - マップを作成
- URL: https://example.com
- 含めるパターン: /products/**
- 上位N: 500
- マップ結果からURLを解析
- URL: {{$json.urls}}
- 形式: JSON
- すべての製品データをスプレッドシートに追加
SEOサイト監査
SEOサイト監査
トリガー: スケジュール - 毎月アクション: Olostep - マップを作成
- URL: あなたのウェブサイト
- 上位N: 1000
- すべてのURLを追跡用に保存
- 見つかったページの総数を報告
人気のワークフロー例
Eコマース価格監視
競合他社の価格を監視し、即時アラートを受け取る:コンテンツ集約
複数のソースからコンテンツを集約:リード充実パイプライン
ウェブ情報でリードデータを充実:研究自動化
複数のソースからの研究を自動化:ソーシャルメディア監視
言及とコンテンツを追跡:マルチステップワークフロー
完全な製品スクレイピングパイプライン
包括的な製品データパイプラインを構築:製品URLを発見
マップを作成を使用してターゲットウェブサイト上のすべての製品ページを見つける
- 含めるパターン:
/products/** - 除外するパターン:
/cart/**,/checkout/**
SEOコンテンツ戦略
競合他社を分析し、コンテンツを計画:専門パーサー
Olostepは人気のあるウェブサイト用の事前構築されたパーサーを提供します。Parserフィールドで使用してください:
Amazon製品
@olostep/amazon-product抽出: タイトル、価格、評価、レビュー、画像、バリアントGoogle検索
@olostep/google-search抽出: 検索結果、タイトル、スニペット、URLGoogleマップ
@olostep/google-maps抽出: ビジネス情報、レビュー、評価、場所メールを抽出
@olostep/extract-emails抽出: ページ、連絡先リスト、フッターからのメールソーシャルを抽出
@olostep/extract-socials抽出: ソーシャルプロファイルリンク(X/Twitter、GitHubなど)カレンダーを抽出
@olostep/extract-calendars抽出: ページからのカレンダーリンク(Googleカレンダー、ICS)パーサーの使用
パーサーIDをParserフィールドに追加するだけです。例を2つ示します:人気アプリとの統合
Google Sheets
データ収集と追跡に最適:- 価格追跡スプレッドシート
- リード充実データベース
- コンテンツインベントリ
- 競合分析シート
Airtable
スクレイピングデータで強力なデータベースを構築:- 製品カタログ
- 研究データベース
- コンテンツカレンダー
- リンクデータベース
Slack
即時通知を受け取る:- 価格下落アラート
- コンテンツ更新通知
- エラーモニタリング
- デイリーダイジェスト
HubSpot / Salesforce
CRMデータを自動で充実:- リード充実
- 会社研究
- 競合インテリジェンス
- アカウントマッピング
Notion
ナレッジベースを構築:- ドキュメントミラー
- 研究リポジトリ
- コンテンツライブラリ
- チームウィキ
ベストプラクティス
複数のURLに対してバッチ処理を使用
複数のURLに対してバッチ処理を使用
3〜5以上のURLをスクレイピングする場合は、複数のウェブサイトをスクレイピングアクションの代わりにURLをバッチスクレイピングを使用してください。バッチ処理は:
- はるかに高速(並列処理)
- よりコスト効果が高い
- 管理が容易
- レート制限に優しい
適切な待機時間を設定
適切な待機時間を設定
JavaScriptが多用されているサイトの場合、「スクレイピング前の待機時間」パラメータを使用:
- シンプルなサイト:0-1000ms
- 動的なサイト:2000-3000ms
- 重いJavaScript:5000-8000ms
専門パーサーを使用
専門パーサーを使用
事前構築されたパーサー(例:Amazon、Google、およびOlostepストアのタスク専用パーサー)を使用:
- 構造化データを自動的に取得
- より信頼性の高い抽出
- カスタム解析の必要なし
- Olostepによってメンテナンス
スクレイピング前にフィルタリング
スクレイピング前にフィルタリング
不要なスクレイピングを避けるためにn8nのIFノードを使用:
- URLが変更されたか確認
- 最近データがスクレイピングされていないか確認
- スクレイピング前にビジネスロジックを適用
非同期操作を処理
非同期操作を処理
バッチ、クロール、マップ操作は非同期です:
- 返されたID(batch_id、crawl_id、map_id)を保存
- すぐに取得する場合はWaitノードを使用
- 完了時のWebhookコールバックを検討
- 取得用の別のワークフローを設定
結果を適切に保存
結果を適切に保存
ニーズに応じて適切なストレージを選択:
- Google Sheets: シンプルな追跡、チームコラボレーション
- Airtable: リレーショナルデータ、リッチフォーマット
- データベース: 大規模、複雑なクエリ
- Notion: ナレッジベース、ドキュメント
監視とアラート
監視とアラート
スクレイピングワークフローの監視を設定:
- n8nのエラーワークフローを使用
- 失敗時にSlack/Emailにアラートを送信
- OlostepダッシュボードでAPI使用量を追跡
- 重要なメトリクスをログ
業界別の一般的なユースケース
Eコマース
- 価格監視: 競合他社の価格をリアルタイムで追跡
- 製品研究: トレンド製品と市場のギャップを発見
- 在庫追跡: 在庫の可用性を監視
- レビュー分析: 顧客レビューを集約して分析
マーケティング & SEO
- コンテンツ発見: コンテンツの機会を見つける
- 競合分析: 競合戦略を追跡
- バックリンク研究: リンクの機会を発見
- キーワード研究: 検索結果からキーワードデータを抽出
セールス & リードジェネレーション
- リード充実: CRMデータをウェブ情報で充実
- 会社研究: 会社インテリジェンスを収集
- コンタクト発見: 意思決定者を見つける
- 競合インテリジェンス: 競合の動きを追跡
研究 & 分析
- データ収集: 複数のソースからデータを収集
- 市場調査: 業界トレンドを追跡
- 学術研究: 研究データを収集
- 価格インテリジェンス: 価格戦略を分析
メディア & 出版
- コンテンツ集約: 複数のサイトからコンテンツをキュレーション
- ニュース監視: ニュースと言及を追跡
- ソーシャルメディア: ソーシャルプラットフォームを監視
- トレンド検出: トレンドトピックを特定
トラブルシューティング
認証失敗
認証失敗
スクレイプが空のコンテンツを返す
スクレイプが空のコンテンツを返す
エラー: コンテンツフィールドが空解決策:
- 「スクレイピング前の待機時間」を増やす
- ウェブサイトがログインを必要とするか確認
- 異なる形式(HTML対Markdown)を試す
- URLがアクセス可能であることを確認
- サイトが自動アクセスをブロックしていないか確認
バッチ配列形式エラー
バッチ配列形式エラー
エラー: “バッチ配列のJSON形式が無効”解決策:
- フォーマットを使用:
[{"url":"https://example.com","custom_id":"id1"}] - 正しいJSON構文を確認
- コードノードを使用してURLを正しくフォーマット
- オンラインバリデーターでJSONをテスト
レート制限超過
レート制限超過
エラー: “レート制限超過”解決策:
- Waitノードでワークフロー実行を間隔を空ける
- 個別のスクレイピングの代わりにバッチ処理を使用
- Olostepプランをアップグレード
- ダッシュボードでレート制限を確認
URLがスクレイプされない
URLがスクレイプされない
エラー: 特定のURLがスクレイプに失敗解決策:
- URL形式を確認(http://またはhttps://を含む)
- URLが認証を必要とするか確認
- まずブラウザでURLをテスト
- 国パラメータを試す
- ブロックされたドメインについてサポートに連絡
n8nの利点
セルフホスト
n8nはセルフホスト型で、ワークフローとデータを完全に制御できます。ベンダーロックインなし、データがインフラストラクチャを離れることはありません。タスク制限なし
クラウドベースの自動化プラットフォームとは異なり、n8nはタスク制限を課しません。追加コストなしで必要なだけ多くのワークフローを実行できます。オープンソース
n8nはオープンソースであり、特定のニーズに合わせてカスタマイズおよび拡張できます。コスト効果
セルフホスト型のn8nは無料で、オプションでクラウドホスティングが利用可能です。Olostep APIの使用料のみを支払います。価格
Olostepはn8nとは独立してAPI使用量に基づいて課金します:- スクレイプ: スクレイプごとに支払い
- バッチ: バッチ内のURLごとに支払い
- クロール: クロールしたページごとに支払い
- マップ: マップ操作ごとに支払い
サポート
n8nインテグレーションに関するサポートが必要ですか?関連リソース
Scrapes API
Scrapesエンドポイントについて学ぶ
Batches API
Batchesエンドポイントについて学ぶ
Crawls API
Crawlsエンドポイントについて学ぶ
Maps API
Mapsエンドポイントについて学ぶ
Python SDK
OlostepをPythonで使用
LangChainインテグレーション
LangChainでAIエージェントを構築
始めましょう
ウェブ検索、スクレイピング、クロールワークフローを自動化する準備はできましたか?ノードをインストール
n8n-nodes-olostepをインストールして自動化ワークフローを構築開始