メインコンテンツへスキップ
Olostep n8n インテグレーションは、強力なウェブ検索、スクレイピング、クロール機能をn8nワークフローに提供します。コードを書くことなく、任意のウェブサイトからデータを検索、抽出、構造化する自動化ワークフローを構築できます。 Olostepをn8nで始める →

特徴

このインテグレーションは、ウェブデータの自動抽出のための6つの強力な操作を提供します:

ウェブサイトをスクレイピング

任意の単一URLから複数の形式(Markdown、HTML、JSON、テキスト)でコンテンツを抽出

検索

ウェブを検索し、構造化された結果を取得

回答 (AI)

AIを使ってウェブを検索し、出典と引用付きの構造化された回答を取得

URLをバッチスクレイピング

最大10,000のURLを同時にスクレイピング。大規模なデータ抽出に最適

クロールを作成

URLのサブページのコンテンツを取得。自動的にウェブサイト全体を発見しスクレイピング

マップを作成

サイト構造分析とコンテンツ発見のためにウェブサイト上のすべてのURLを取得

インストール

1. ノードをインストール

npmを使用してOlostepノードパッケージをインストール:
npm install n8n-nodes-olostep
その後、n8nを再起動して新しいノードを読み込みます。 または、詳細な手順についてはn8nコミュニティノードインストールガイドを参照してください。

2. アカウントを接続

ワークフローで初めてOlostepノードを使用する際、資格情報を設定する必要があります:
  1. ワークフローに「Olostep Scrape」ノードを追加
  2. ノードをクリックして設定を開く
  3. 「新しい資格情報を作成」をクリックするか、既存の資格情報を選択
  4. Olostep APIキーを入力
  5. 「保存」をクリックして資格情報を保存
APIキーはOlostepダッシュボードから取得してください。

利用可能なアクション

ウェブサイトをスクレイピング

単一のURLからコンテンツを抽出します。複数の形式とJavaScriptレンダリングをサポート。 ユースケース:
  • 特定のページの変更を監視
  • eコマースサイトからの製品情報抽出
  • ニュース記事やブログ投稿からのデータ収集
  • コンテンツ集約のためのコンテンツ取得
設定:
スクレイピングするURL
string
必須
スクレイピングするウェブサイトのURL(http://またはhttps://を含む必要があります)
出力形式
dropdown
デフォルト:"Markdown"
形式を選択:Markdown、HTML、JSON、またはプレーンテキスト
国コード
string
ロケーション固有のコンテンツのための国コード(例:“US”, “GB”, “CA”)
スクレイピング前の待機時間
integer
JavaScriptレンダリングのための待機時間(0-10000ミリ秒)
パーサー
string
特殊な抽出のためのオプションのパーサーID(例:“@olostep/amazon-product”)
出力フィールド:
  • スクレイプID
  • スクレイプされたURL
  • Markdownコンテンツ
  • HTMLコンテンツ
  • JSONコンテンツ
  • テキストコンテンツ
  • ステータス
  • タイムスタンプ
  • スクリーンショットURL(利用可能な場合)
  • ページメタデータ
例ワークフロー:
トリガー: スケジュール(毎日午前9時)アクション: Olostep - ウェブサイトをスクレイピング
  • URL: 競合他社の製品ページ
  • 形式: JSON
  • パーサー: @olostep/amazon-product
アクション: Google Sheets - 行を追加
  • 価格データを追跡スプレッドシートに追加
アクション: メール - メール送信(価格が下がった場合)
  • 価格変更をチームに通知
トリガー: RSSフィード - 新しいアイテムアクション: Olostep - ウェブサイトをスクレイピング
  • URL: {{$json.link}}
  • 形式: Markdown
アクション: Notion - ページを作成
  • 記事コンテンツをNotionデータベースに保存
トリガー: Google Sheets - 新しい行アクション: Olostep - ウェブサイトをスクレイピング
  • URL: シートからの会社ウェブサイト
  • 形式: Markdown
アクション: OpenAI - テキストを完了
  • AIを使用して会社情報を抽出
アクション: Google Sheets - 行を更新
  • 充実したデータをシートに追加

検索

指定されたクエリでウェブを検索し、構造化された結果を取得(非AI、パーサーベースの検索結果)。 ユースケース:
  • 自動化された研究ワークフロー
  • リード発見と充実
  • 競合分析
  • コンテンツ研究
設定:
クエリ
string
必須
検索クエリ
出力: タイトル、URL、スニペット、メタデータを含むJSON形式の構造化された検索結果を返します。 例ワークフロー:
トリガー: スケジュール(毎日午前8時)アクション: Olostep - 検索
  • クエリ: “最新のAI開発”
アクション: コード - 結果を処理
  • 重要な情報を抽出してフォーマット
アクション: Notion - ページを作成
  • 研究結果を保存
トリガー: 手動(ボタン)アクション: Olostep - 検索
  • クエリ: ”{{$json.searchTerm}}”
アクション: Airtable - レコードを作成
  • 連絡先情報と共にリードを保存

URLをバッチスクレイピング

最大10,000のURLを同時にスクレイピング。大規模なデータ抽出に最適。 ユースケース:
  • 製品カタログ全体をスクレイピング
  • 複数の検索結果からデータを抽出
  • スプレッドシートからのURLリストを処理
  • 大量のコンテンツ抽出
設定:
スクレイピングするURL
text
必須
URLとcustom_idフィールドを持つオブジェクトのJSON配列。例: [{"url":"https://example.com","custom_id":"site1"}]
出力形式
dropdown
デフォルト:"Markdown"
すべてのURLに対して形式を選択:Markdown、HTML、JSON、またはプレーンテキスト
国コード
string
ロケーション固有のスクレイピングのための国コード
スクレイピング前の待機時間
integer
JavaScriptレンダリングのための待機時間
パーサー
string
特殊な抽出のためのオプションのパーサーID
出力フィールド:
  • バッチID(後で結果を取得するために使用)
  • ステータス
  • 合計URL
  • 作成日時
  • リクエストされた形式
  • 国コード
  • 使用されたパーサー
例ワークフロー:
トリガー: Webhook - POSTリクエストを受信アクション: コード - URLをフォーマット
  • CSV/リストをJSON配列形式に変換
アクション: Olostep - URLをバッチスクレイピング
  • URL: {{$json.urlArray}}
  • 形式: JSON
  • パーサー: @olostep/amazon-product
アクション: Webhook - POST
  • バッチIDをシステムに送信して取得
トリガー: スケジュール - 毎日午前6時アクション: Google Sheets - 行を読み込む
  • 監視するURLを取得
アクション: コード - URLをフォーマット
  • バッチ配列形式に変換
アクション: Olostep - URLをバッチスクレイピング
  • すべてのURLを一度に処理
アクション: Slack - メッセージを送信
  • スクレイピングが完了したことをチームに通知

クロールを作成

URLのサブページのコンテンツを取得。リンクをたどって自動的にウェブサイト全体を発見しスクレイピング。ドキュメントサイト、ブログ、コンテンツリポジトリに最適。 ユースケース:
  • ドキュメントサイト全体をクロールしてアーカイブ
  • ウェブサイトからすべてのブログ投稿を抽出
  • ウェブコンテンツからナレッジベースを構築
  • ウェブサイト構造の変更を監視
設定:
開始URL
string
必須
最大ページ数
integer
デフォルト:"10"
クロールする最大ページ数
リンクをたどる
boolean
デフォルト:"true"
ページ上で見つかったリンクをたどるかどうか
出力形式
dropdown
デフォルト:"Markdown"
スクレイピングされたコンテンツの形式
国コード
string
ロケーション固有のクロールのためのオプションの国コード
パーサー
string
特殊なコンテンツ抽出のためのオプションのパーサーID
出力フィールド:
  • クロールID(後で結果を取得するために使用)
  • オブジェクトタイプ
  • ステータス
  • 開始URL
  • 最大ページ数
  • リンクをたどる
  • 作成タイムスタンプ
  • 形式
例ワークフロー:
トリガー: スケジュール - 毎月1日の午前0時アクション: Olostep - クロールを作成アクション: Webhook - POST
  • クロールIDをアーカイブシステムに送信
アクション: Slack - メッセージを送信
  • クロールが進行中であることをチームに通知
トリガー: スケジュール - 毎週月曜日の午前9時アクション: Olostep - クロールを作成
  • 開始URL: 競合他社のブログURL
  • 最大ページ数: 100
  • 形式: Markdown
アクション: 待機 - 10分間
  • クロールが完了するのを待つ
アクション: Airtable - レコードを作成
  • 分析のためにクロールデータを保存

マップを作成

ウェブサイト上のすべてのURLを取得。コンテンツ発見とサイト構造分析のためにウェブサイトからすべてのURLを抽出。 ユースケース:
  • サイトマップとサイト構造図を構築
  • バッチスクレイピング前にすべてのページを発見
  • 壊れたページや欠落ページを見つける
  • SEO監査と分析
設定:
ウェブサイトURL
string
必須
リンクを抽出するウェブサイトのURL(http://またはhttps://を含む必要があります)
検索クエリ
string
URLをフィルタリングするためのオプションの検索クエリ(例:“blog”)
上位N URL
integer
返されるURLの数を制限
含めるURLパターン
string
特定のパスを含めるためのグロブパターン(例:“/blog/**”)
除外するURLパターン
string
特定のパスを除外するためのグロブパターン(例:“/admin/**”)
出力フィールド:
  • マップID
  • オブジェクトタイプ
  • ウェブサイトURL
  • 見つかったURLの総数
  • URL(JSON配列)
  • 検索クエリ
  • 上位N制限
例ワークフロー:
トリガー: 手動(ボタン)アクション: Olostep - マップを作成アクション: コード - URLを抽出
  • マップ結果からURLを解析
アクション: Olostep - URLをバッチスクレイピング
  • URL: {{$json.urls}}
  • 形式: JSON
アクション: Google Sheets - 行を追加
  • すべての製品データをスプレッドシートに追加
トリガー: スケジュール - 毎月アクション: Olostep - マップを作成
  • URL: あなたのウェブサイト
  • 上位N: 1000
アクション: Airtable - レコードを作成
  • すべてのURLを追跡用に保存
アクション: Slack - メッセージを送信
  • 見つかったページの総数を報告

人気のワークフロー例

Eコマース価格監視

競合他社の価格を監視し、即時アラートを受け取る:
トリガー: スケジュール(毎時)

アクション: Olostep - ウェブサイトをスクレイピング
  - URL: 競合他社の製品ページ
  - 形式: JSON
  - パーサー: @olostep/amazon-product

アクション: IF - 価格が変更されたか確認

アクション: Slack - メッセージを送信
  - アラート: "価格が$\{\{price\}\}に変更されました"

コンテンツ集約

複数のソースからコンテンツを集約:
トリガー: Google Sheets - 新しい行

アクション: Olostep - ウェブサイトをスクレイピング
  - URL: \{\{$json.url\}\}
  - 形式: Markdown

アクション: OpenAI - 要約
  - コンテンツを要約

アクション: Airtable - レコードを作成
  - 要約付きの記事を保存

リード充実パイプライン

ウェブ情報でリードデータを充実:
トリガー: HubSpot - 新しいコンタクト

アクション: Olostep - ウェブサイトをスクレイピング
  - URL: \{\{$json.companyWebsite\}\}
  - 形式: Markdown

アクション: OpenAI - データを抽出
  - 抽出: 会社規模、業界、製品

アクション: HubSpot - コンタクトを更新
  - 充実したデータをコンタクトに追加

研究自動化

複数のソースからの研究を自動化:
トリガー: Airtable - 新しいレコード

アクション: Olostep - マップを作成
  - URL: 研究対象ウェブサイト
  - 含める: /research/**

アクション: コード - URLを解析

アクション: Olostep - URLをバッチスクレイピング
  - URL: \{\{$json.discoveredUrls\}\}
  - 形式: Markdown

アクション: Notion - ページを作成
  - 研究データベースを作成

ソーシャルメディア監視

言及とコンテンツを追跡:
トリガー: スケジュール(6時間ごと)

アクション: Olostep - ウェブサイトをスクレイピング
  - URL: ニュースサイトの検索ページ
  - 形式: HTML

アクション: コード - 言及を抽出
  - ブランド言及を見つける

アクション: Google Sheets - 行を追加
  - タイムスタンプ付きで言及を記録

マルチステップワークフロー

完全な製品スクレイピングパイプライン

包括的な製品データパイプラインを構築:
1

製品URLを発見

マップを作成を使用してターゲットウェブサイト上のすべての製品ページを見つける
  • 含めるパターン: /products/**
  • 除外するパターン: /cart/**, /checkout/**
2

製品をバッチ処理

URLをバッチスクレイピングを使用してすべての製品データを抽出
  • 形式: JSON
  • パーサー: 製品固有のパーサーがある場合
3

データベースに保存

バッチIDをシステムに送信するか、待機して結果を取得
  • Airtable、Google Sheets、またはデータベースを使用
4

変更を監視

毎日のスクレイピングをスケジュールして価格/在庫の変更を追跡
  • 既存のデータと比較
  • 重要な変更に対してアラート

SEOコンテンツ戦略

競合他社を分析し、コンテンツを計画:
1

競合サイトをマップ

マップを作成を使用して競合ウェブサイトを調査
  • すべてのブログ投稿とコンテンツページを抽出
2

コンテンツをスクレイピング

URLをバッチスクレイピングを使用して完全なコンテンツを取得
  • 形式: Markdownで簡単に分析
3

AI分析

OpenAIを使用してトピックとキーワードを分析
  • コンテンツのギャップを特定
  • トレンドトピックを見つける
4

コンテンツカレンダーを作成

NotionまたはAirtableにインサイトを追加
  • コンテンツ戦略を計画

専門パーサー

Olostepは人気のあるウェブサイト用の事前構築されたパーサーを提供します。Parserフィールドで使用してください:

Amazon製品

@olostep/amazon-product抽出: タイトル、価格、評価、レビュー、画像、バリアント

Google検索

@olostep/google-search抽出: 検索結果、タイトル、スニペット、URL

Googleマップ

@olostep/google-maps抽出: ビジネス情報、レビュー、評価、場所

メールを抽出

@olostep/extract-emails抽出: ページ、連絡先リスト、フッターからのメール

ソーシャルを抽出

@olostep/extract-socials抽出: ソーシャルプロファイルリンク(X/Twitter、GitHubなど)

カレンダーを抽出

@olostep/extract-calendars抽出: ページからのカレンダーリンク(Googleカレンダー、ICS)

パーサーの使用

パーサーIDをParserフィールドに追加するだけです。例を2つ示します:
アクション: Olostep - ウェブサイトをスクレイピング
  - URL: https://www.amazon.com/dp/PRODUCT_ID
  - 形式: JSON
  - パーサー: @olostep/amazon-product
アクション: Olostep - ウェブサイトをスクレイピング
  - URL: https://example.com/contact
  - 形式: JSON
  - パーサー: @olostep/extract-emails
パーサーはタスクに特化した構造化データを自動的に抽出します。

人気アプリとの統合

Google Sheets

データ収集と追跡に最適:
1. Olostepがウェブサイトをスクレイピング
2. データをフィルタリングまたは変換
3. Google Sheets - 行を追加
ユースケース:
  • 価格追跡スプレッドシート
  • リード充実データベース
  • コンテンツインベントリ
  • 競合分析シート

Airtable

スクレイピングデータで強力なデータベースを構築:
1. Olostepがスクレイピングまたはクロール
2. コード - データをフォーマット
3. Airtable - レコードを作成
ユースケース:
  • 製品カタログ
  • 研究データベース
  • コンテンツカレンダー
  • リンクデータベース

Slack

即時通知を受け取る:
1. Olostepがページを監視
2. IF - 変更を確認
3. Slack - メッセージを送信
ユースケース:
  • 価格下落アラート
  • コンテンツ更新通知
  • エラーモニタリング
  • デイリーダイジェスト

HubSpot / Salesforce

CRMデータを自動で充実:
1. 新しいコンタクトが追加
2. Olostepが会社ウェブサイトをスクレイピング
3. OpenAIが主要情報を抽出
4. CRM - コンタクトを更新
ユースケース:
  • リード充実
  • 会社研究
  • 競合インテリジェンス
  • アカウントマッピング

Notion

ナレッジベースを構築:
1. Olostepがドキュメントをクロール
2. コード - コンテンツを解析
3. Notion - ページを作成
ユースケース:
  • ドキュメントミラー
  • 研究リポジトリ
  • コンテンツライブラリ
  • チームウィキ

ベストプラクティス

3〜5以上のURLをスクレイピングする場合は、複数のウェブサイトをスクレイピングアクションの代わりにURLをバッチスクレイピングを使用してください。バッチ処理は:
  • はるかに高速(並列処理)
  • よりコスト効果が高い
  • 管理が容易
  • レート制限に優しい
JavaScriptが多用されているサイトの場合、「スクレイピング前の待機時間」パラメータを使用:
  • シンプルなサイト:0-1000ms
  • 動的なサイト:2000-3000ms
  • 重いJavaScript:5000-8000ms
最適な待機時間を見つけるために異なる値でテストしてください。
事前構築されたパーサー(例:Amazon、Google、およびOlostepストアのタスク専用パーサー)を使用:
  • 構造化データを自動的に取得
  • より信頼性の高い抽出
  • カスタム解析の必要なし
  • Olostepによってメンテナンス
不要なスクレイピングを避けるためにn8nのIFノードを使用:
  • URLが変更されたか確認
  • 最近データがスクレイピングされていないか確認
  • スクレイピング前にビジネスロジックを適用
これによりAPIクレジットと実行時間を節約できます。
バッチ、クロール、マップ操作は非同期です:
  • 返されたID(batch_id、crawl_id、map_id)を保存
  • すぐに取得する場合はWaitノードを使用
  • 完了時のWebhookコールバックを検討
  • 取得用の別のワークフローを設定
ニーズに応じて適切なストレージを選択:
  • Google Sheets: シンプルな追跡、チームコラボレーション
  • Airtable: リレーショナルデータ、リッチフォーマット
  • データベース: 大規模、複雑なクエリ
  • Notion: ナレッジベース、ドキュメント
スクレイピングワークフローの監視を設定:
  • n8nのエラーワークフローを使用
  • 失敗時にSlack/Emailにアラートを送信
  • OlostepダッシュボードでAPI使用量を追跡
  • 重要なメトリクスをログ

業界別の一般的なユースケース

Eコマース

  • 価格監視: 競合他社の価格をリアルタイムで追跡
  • 製品研究: トレンド製品と市場のギャップを発見
  • 在庫追跡: 在庫の可用性を監視
  • レビュー分析: 顧客レビューを集約して分析

マーケティング & SEO

  • コンテンツ発見: コンテンツの機会を見つける
  • 競合分析: 競合戦略を追跡
  • バックリンク研究: リンクの機会を発見
  • キーワード研究: 検索結果からキーワードデータを抽出

セールス & リードジェネレーション

  • リード充実: CRMデータをウェブ情報で充実
  • 会社研究: 会社インテリジェンスを収集
  • コンタクト発見: 意思決定者を見つける
  • 競合インテリジェンス: 競合の動きを追跡

研究 & 分析

  • データ収集: 複数のソースからデータを収集
  • 市場調査: 業界トレンドを追跡
  • 学術研究: 研究データを収集
  • 価格インテリジェンス: 価格戦略を分析

メディア & 出版

  • コンテンツ集約: 複数のサイトからコンテンツをキュレーション
  • ニュース監視: ニュースと言及を追跡
  • ソーシャルメディア: ソーシャルプラットフォームを監視
  • トレンド検出: トレンドトピックを特定

トラブルシューティング

エラー: “無効なAPIキー”解決策:
  • ダッシュボードからAPIキーを確認
  • APIキーに余分なスペースがないことを確認
  • n8nで資格情報を再作成
  • APIキーがアクティブであることを確認
エラー: コンテンツフィールドが空解決策:
  • 「スクレイピング前の待機時間」を増やす
  • ウェブサイトがログインを必要とするか確認
  • 異なる形式(HTML対Markdown)を試す
  • URLがアクセス可能であることを確認
  • サイトが自動アクセスをブロックしていないか確認
エラー: “バッチ配列のJSON形式が無効”解決策:
  • フォーマットを使用: [{"url":"https://example.com","custom_id":"id1"}]
  • 正しいJSON構文を確認
  • コードノードを使用してURLを正しくフォーマット
  • オンラインバリデーターでJSONをテスト
エラー: “レート制限超過”解決策:
  • Waitノードでワークフロー実行を間隔を空ける
  • 個別のスクレイピングの代わりにバッチ処理を使用
  • Olostepプランをアップグレード
  • ダッシュボードでレート制限を確認
エラー: 特定のURLがスクレイプに失敗解決策:
  • URL形式を確認(http://またはhttps://を含む)
  • URLが認証を必要とするか確認
  • まずブラウザでURLをテスト
  • 国パラメータを試す
  • ブロックされたドメインについてサポートに連絡

n8nの利点

セルフホスト

n8nはセルフホスト型で、ワークフローとデータを完全に制御できます。ベンダーロックインなし、データがインフラストラクチャを離れることはありません。

タスク制限なし

クラウドベースの自動化プラットフォームとは異なり、n8nはタスク制限を課しません。追加コストなしで必要なだけ多くのワークフローを実行できます。

オープンソース

n8nはオープンソースであり、特定のニーズに合わせてカスタマイズおよび拡張できます。

コスト効果

セルフホスト型のn8nは無料で、オプションでクラウドホスティングが利用可能です。Olostep APIの使用料のみを支払います。

価格

Olostepはn8nとは独立してAPI使用量に基づいて課金します:
  • スクレイプ: スクレイプごとに支払い
  • バッチ: バッチ内のURLごとに支払い
  • クロール: クロールしたページごとに支払い
  • マップ: マップ操作ごとに支払い
現在の価格はolostep.com/pricingで確認してください。 n8n: セルフホスト型のn8nは無料です。クラウドホスティングはオプションの有料プランで利用可能です。

サポート

n8nインテグレーションに関するサポートが必要ですか?

関連リソース

始めましょう

ウェブ検索、スクレイピング、クロールワークフローを自動化する準備はできましたか?

ノードをインストール

n8n-nodes-olostepをインストールして自動化ワークフローを構築開始
Olostepをn8nと接続し、今日からウェブデータ抽出を自動化しましょう!