Olostep + Apify インテグレーション

Olostepは、ウェブ検索、スクレイピング、クローリングのためのAPIで、ウェブデータを検索、抽出、構造化するためのAPIです。このガイドでは、OlostepをApify Actorsと組み合わせて、信頼性のあるエンドツーエンドのウェブデータパイプラインを構築する方法を紹介します。

作成できるもの

ウェブサイトをスクレイピング

任意の単一URLからMarkdown、HTML、JSON、またはテキストでコンテンツを抽出

URLを一括スクレイピング

構造化された出力で大規模なURLリストを並行処理

クローリングを作成

リンクされたページを発見し、スクレイピングして完全なデータセットを構築

マップを作成

ウェブサイトからすべてのURLを抽出（サイトマップのような発見）

AI駆動の回答

質問をして、ソース付きの構造化されたJSON回答を取得

クイックスタート

1) Apify CLIをインストール

npm install -g apify-cli
apify --version

2) Olostep APIキーを取得

Olostepダッシュボード → APIキーから取得。

3) Olostep Actorをローカルで実行

cd olostep-tools/integrations/apify
apify run

デフォルトのローカル入力ファイルは次の場所にあります： olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json 入力例：

{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Apifyにデプロイ（クラウド）

apify login
apify push

その後、Apifyコンソール → Actors → で希望の入力でアクターを実行。

Apifyコンソールでの実行（ステップバイステップ）

Apifyコンソールでアクターを開く → ソース → 入力。
マニュアルタブで「Olostep APIキー」フィールドが表示されます。Olostepダッシュボードからキーを貼り付けます。
操作を選択（デフォルトは「スクレイピング」）。
関連フィールドを入力（「スクレイピング」の場合、「スクレイピングするURL」を設定）。
保存 → 開始をクリック。
実行が終了したら、データセットタブを開いて結果をダウンロード（JSON/CSV/Excel）。

注意：

「スクレイピングするURL」にはスキームを付けても付けなくても構いません。欠けている場合、アクターは自動的にhttps://を追加します。
サイトがJavaScriptを多用していてタイムアウトが発生する場合は、「スクレイピング前の待機」を2000〜5000msに設定して再実行してください。

利用可能な操作

ウェブサイトをスクレイピング

単一のURLからコンテンツを抽出します。ページレベルの自動化に最適です。

operation

constant

デフォルト:"scrape"

“scrape”である必要があります

apiKey

string

必須

あなたのOlostep APIキー（Bearer）

url_to_scrape

string

必須

スクレイピングするURL（http://またはhttps://を含む必要があります）

formats

dropdown

デフォルト:"markdown"

Markdown、HTML、JSON、テキストのいずれか

country

string

オプションの国コード（例：“US”、“GB”、“CA”）

wait_before_scraping

integer

JavaScriptレンダリングのためのオプションの待機時間（0〜10000ms）

parser

string

オプションのパーサーID（例：“@olostep/amazon-product”）

出力フィールド：

id, url, status, formats
markdown_content / html_content / json_content / text_content
ホストされたURL（利用可能な場合）、ページメタデータ

URLを一括スクレイピング

多くのURLを一度に処理し、一貫したフォーマットと構造を保ちます。

operation

constant

デフォルト:"batch"

“batch”である必要があります

apiKey

string

必須

あなたのOlostep APIキー

batch_array

text

必須

urlとオプションのcustom_idを含むオブジェクトのJSON配列
例：[{"url":"https://example.com","custom_id":"site1"}]

formats

dropdown

デフォルト:"markdown"

Markdown、HTML、JSON、テキストのいずれか

country

string

オプションの国コード

wait_before_scraping

integer

JSサイトのためのオプションの待機時間

parser

string

オプションのパーサーID

出力フィールド：

batch_id, status, total_urls, created_at, formats, country, parser, urls[]

クローリングを作成

リンクをたどり、開始URLから複数のページをスクレイピングします。

operation

constant

デフォルト:"crawl"

“crawl”である必要があります

apiKey

string

必須

あなたのOlostep APIキー

start_url

string

必須

クローリングの開始URL

max_pages

integer

デフォルト:"10"

クローリングする最大ページ数

follow_links

boolean

デフォルト:"true"

ページ内リンクをたどる

formats

dropdown

デフォルト:"markdown"

Markdown、HTML、JSON、テキストのいずれか

country

string

オプションの国コード

parser

string

オプションのパーサーID

出力フィールド：

crawl_id, object, status, start_url, max_pages, follow_links, created, formats

マップを作成

ウェブサイト上のすべてのURLを発見し、後で一括スクレイピングの準備をします。

operation

constant

デフォルト:"map"

“map”である必要があります

apiKey

string

必須

あなたのOlostep APIキー

website_url

string

必須

マッピングするウェブサイト

search_query

string

オプションのクエリフィルター

top_n

integer

URLの制限数

include_patterns

string

含めるグロブ（例：“/products/**”）

exclude_patterns

string

除外するグロブ（例：“/admin/**”）

出力フィールド：

map_id, object, website_url, total_urls, urls[], search_query, top_n

JSON例をコピー＆ペースト（コンソール → 入力 → JSON）

スクレイピング

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

バッチ

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

クローリング

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

マップ

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

回答

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

ワークフロー例

製品を発見してスクレイピング

マップを作成 → “/products/**“を含める
URLを解析 → バッチ配列を構築
URLを一括スクレイピング → フォーマット：JSON
Google Sheets / Airtableに送信

日々のコンテンツ監視

アクターをスケジュール（毎日）
ウェブサイトをスクレイピング → フォーマット：Markdown
LLMで要約
Slackで通知

競合知識ベース

クローリングを作成（ブログ/ドキュメント）
Notionに出力を保存
スケジュールで毎週更新

専門のパーサー

Olostepは人気のあるサイトのデータを構造化するためのパーサーをサポートしています。

Amazon製品

@olostep/amazon-product → タイトル、価格、評価、レビュー、画像、バリエーション

Google検索

@olostep/google-search → 結果、タイトル、スニペット、URL

Googleマップ

@olostep/google-maps → ビジネス情報、レビュー、評価、場所

その他のパーサー

メール抽出器、ソーシャルハンドルファインダー、カレンダーリンク抽出器などを探索

ベストプラクティス

3つ以上のURLにはバッチを推奨

より速く、安価で、監視が容易で、レート制限を尊重します。

適切な待機時間を使用

JSを多用するサイト：wait_before_scrapingを増やす（例：2000–5000ms）。

スクレイピング前にフィルター

不要なタスクを避ける — まず変更を確認し、重複排除の状態を保持。

ホストされたURLを介して大きなコンテンツを保存

Apifyフローでのペイロードサイズ制限を回避するためにホストされた出力を使用。

非同期操作を長時間実行として扱う

バッチ/クローリング/マップはIDを返します; 後で取得するか、遅延でチェーン。

一時的なタイムアウトをクリーンに処理

504または一時的なタイムアウトが表示された場合、アクターは短い待機時間で自動的に1回再試行します。
JSを多用するページには「スクレイピング前の待機」を2000–5000msに設定することもできます。

トラブルシューティング

認証に失敗しました

ダッシュボードからAPIキーを確認
末尾のスペースを削除
Apify入力フォームで再入力

コンテンツが空です

待機時間を増やす
URLが公開されているか/ログインが必要でないか確認
異なる出力フォーマットを試す

レート制限を超えました

スケジュールで実行を間隔を空ける
多くのURLにはバッチを推奨
必要に応じてOlostepプランをアップグレード

ブロックされたサイトまたは動的サイト

国のパラメータを試す
待機時間とパーサーを調整
ガイダンスのためにサポートに連絡

料金

OlostepはAPI使用量に基づいて課金されます（Apifyとは独立）：

スクレイピング → スクレイプごと
バッチ → URLごと
クローリング → ページごと
マップ → 操作ごと

詳細はhttps://olostep.com/pricingをご覧ください。

セキュリティ

あなたのAPIキーは実行時にBearerトークンとして送信されます。
キーをバージョン管理にコミットしないでください; Apifyは入力をKey‑Value Storeに保存します。
ローカル開発では、キーをstorage/key_value_stores/default/INPUT.jsonに保持（gitignoreされています）。

スクレイピングAPI

任意のURLからLLMに適したMarkdown、HTML、テキスト、または構造化されたJSONを抽出。

バッチAPI

最大10,000のURLを同時に処理し、後で結果を取得。

クローリングAPI

サイトのコンテンツを再帰的に発見し、スクレイピング。

マップAPI

バッチスクレイピングの準備のためにウェブサイト上のすべてのURLを取得。

サポート

Apifyウェブサイト

Apifyプラットフォーム

Apifyドキュメント

Apifyプラットフォーム＆SDKドキュメント

ドキュメンテーション

完全なAPIドキュメント

サポートメール

info@olostep.com

開始する

機能

統合

Documentation Index

​作成できるもの

ウェブサイトをスクレイピング

URLを一括スクレイピング

クローリングを作成

マップを作成

AI駆動の回答

​クイックスタート

​1) Apify CLIをインストール

​2) Olostep APIキーを取得

​3) Olostep Actorをローカルで実行

​4) Apifyにデプロイ（クラウド）

​Apifyコンソールでの実行（ステップバイステップ）

​利用可能な操作

​ウェブサイトをスクレイピング

​URLを一括スクレイピング

​クローリングを作成

​マップを作成

​JSON例をコピー＆ペースト（コンソール → 入力 → JSON）

​スクレイピング

​バッチ

​クローリング

​マップ

​回答

​ワークフロー例

​専門のパーサー

Amazon製品

Google検索

Googleマップ

その他のパーサー

​ベストプラクティス

​トラブルシューティング

​料金

​セキュリティ

​関連リソース

スクレイピングAPI

バッチAPI

クローリングAPI

マップAPI

​サポート

Apifyウェブサイト

Apifyドキュメント

ドキュメンテーション

サポートメール

作成できるもの

クイックスタート

1) Apify CLIをインストール

2) Olostep APIキーを取得

3) Olostep Actorをローカルで実行

4) Apifyにデプロイ（クラウド）

Apifyコンソールでの実行（ステップバイステップ）

利用可能な操作

ウェブサイトをスクレイピング

URLを一括スクレイピング

クローリングを作成

マップを作成

JSON例をコピー＆ペースト（コンソール → 入力 → JSON）

スクレイピング

バッチ

クローリング

マップ

回答

ワークフロー例

専門のパーサー

ベストプラクティス

トラブルシューティング

料金

セキュリティ

関連リソース

サポート