メインコンテンツへスキップ
Olostepは、ウェブ検索、スクレイピング、クローリングのためのAPIで、ウェブデータを検索、抽出、構造化するためのAPIです。このガイドでは、OlostepをApify Actorsと組み合わせて、信頼性のあるエンドツーエンドのウェブデータパイプラインを構築する方法を紹介します。

作成できるもの

ウェブサイトをスクレイピング

任意の単一URLからMarkdown、HTML、JSON、またはテキストでコンテンツを抽出

URLを一括スクレイピング

構造化された出力で大規模なURLリストを並行処理

クローリングを作成

リンクされたページを発見し、スクレイピングして完全なデータセットを構築

マップを作成

ウェブサイトからすべてのURLを抽出(サイトマップのような発見)

AI駆動の回答

質問をして、ソース付きの構造化されたJSON回答を取得

クイックスタート

1) Apify CLIをインストール

npm install -g apify-cli
apify --version

2) Olostep APIキーを取得

Olostepダッシュボード → APIキーから取得。

3) Olostep Actorをローカルで実行

cd olostep-tools/integrations/apify
apify run
デフォルトのローカル入力ファイルは次の場所にあります: olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json 入力例:
{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Apifyにデプロイ(クラウド)

apify login
apify push
その後、Apifyコンソール → Actors → で希望の入力でアクターを実行。

Apifyコンソールでの実行(ステップバイステップ)

  1. Apifyコンソールでアクターを開く → ソース → 入力。
  2. マニュアルタブで「Olostep APIキー」フィールドが表示されます。Olostepダッシュボードからキーを貼り付けます。
  3. 操作を選択(デフォルトは「スクレイピング」)。
  4. 関連フィールドを入力(「スクレイピング」の場合、「スクレイピングするURL」を設定)。
  5. 保存 → 開始をクリック。
  6. 実行が終了したら、データセットタブを開いて結果をダウンロード(JSON/CSV/Excel)。
注意:
  • 「スクレイピングするURL」にはスキームを付けても付けなくても構いません。欠けている場合、アクターは自動的にhttps://を追加します。
  • サイトがJavaScriptを多用していてタイムアウトが発生する場合は、「スクレイピング前の待機」を2000〜5000msに設定して再実行してください。

利用可能な操作

ウェブサイトをスクレイピング

単一のURLからコンテンツを抽出します。ページレベルの自動化に最適です。
operation
constant
デフォルト:"scrape"
“scrape”である必要があります
apiKey
string
必須
あなたのOlostep APIキー(Bearer)
url_to_scrape
string
必須
formats
dropdown
デフォルト:"markdown"
Markdown、HTML、JSON、テキストのいずれか
country
string
オプションの国コード(例:“US”、“GB”、“CA”)
wait_before_scraping
integer
JavaScriptレンダリングのためのオプションの待機時間(0〜10000ms)
parser
string
オプションのパーサーID(例:“@olostep/amazon-product”)
出力フィールド:
  • id, url, status, formats
  • markdown_content / html_content / json_content / text_content
  • ホストされたURL(利用可能な場合)、ページメタデータ

URLを一括スクレイピング

多くのURLを一度に処理し、一貫したフォーマットと構造を保ちます。
operation
constant
デフォルト:"batch"
“batch”である必要があります
apiKey
string
必須
あなたのOlostep APIキー
batch_array
text
必須
urlとオプションのcustom_idを含むオブジェクトのJSON配列
例:[{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
デフォルト:"markdown"
Markdown、HTML、JSON、テキストのいずれか
country
string
オプションの国コード
wait_before_scraping
integer
JSサイトのためのオプションの待機時間
parser
string
オプションのパーサーID
出力フィールド:
  • batch_id, status, total_urls, created_at, formats, country, parser, urls[]

クローリングを作成

リンクをたどり、開始URLから複数のページをスクレイピングします。
operation
constant
デフォルト:"crawl"
“crawl”である必要があります
apiKey
string
必須
あなたのOlostep APIキー
start_url
string
必須
クローリングの開始URL
max_pages
integer
デフォルト:"10"
クローリングする最大ページ数
ページ内リンクをたどる
formats
dropdown
デフォルト:"markdown"
Markdown、HTML、JSON、テキストのいずれか
country
string
オプションの国コード
parser
string
オプションのパーサーID
出力フィールド:
  • crawl_id, object, status, start_url, max_pages, follow_links, created, formats

マップを作成

ウェブサイト上のすべてのURLを発見し、後で一括スクレイピングの準備をします。
operation
constant
デフォルト:"map"
“map”である必要があります
apiKey
string
必須
あなたのOlostep APIキー
website_url
string
必須
マッピングするウェブサイト
search_query
string
オプションのクエリフィルター
top_n
integer
URLの制限数
include_patterns
string
含めるグロブ(例:“/products/**”)
exclude_patterns
string
除外するグロブ(例:“/admin/**”)
出力フィールド:
  • map_id, object, website_url, total_urls, urls[], search_query, top_n

JSON例をコピー&ペースト(コンソール → 入力 → JSON)

スクレイピング

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

バッチ

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

クローリング

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

マップ

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

回答

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

ワークフロー例

  1. マップを作成 → “/products/**“を含める
  2. URLを解析 → バッチ配列を構築
  3. URLを一括スクレイピング → フォーマット:JSON
  4. Google Sheets / Airtableに送信
  1. アクターをスケジュール(毎日)
  2. ウェブサイトをスクレイピング → フォーマット:Markdown
  3. LLMで要約
  4. Slackで通知
  1. クローリングを作成(ブログ/ドキュメント)
  2. Notionに出力を保存
  3. スケジュールで毎週更新

専門のパーサー

Olostepは人気のあるサイトのデータを構造化するためのパーサーをサポートしています。

Amazon製品

@olostep/amazon-product → タイトル、価格、評価、レビュー、画像、バリエーション

Google検索

@olostep/google-search → 結果、タイトル、スニペット、URL

Googleマップ

@olostep/google-maps → ビジネス情報、レビュー、評価、場所

その他のパーサー

メール抽出器、ソーシャルハンドルファインダー、カレンダーリンク抽出器などを探索

ベストプラクティス

より速く、安価で、監視が容易で、レート制限を尊重します。
JSを多用するサイト:wait_before_scrapingを増やす(例:2000–5000ms)。
不要なタスクを避ける — まず変更を確認し、重複排除の状態を保持。
Apifyフローでのペイロードサイズ制限を回避するためにホストされた出力を使用。
バッチ/クローリング/マップはIDを返します; 後で取得するか、遅延でチェーン。
504または一時的なタイムアウトが表示された場合、アクターは短い待機時間で自動的に1回再試行します。
JSを多用するページには「スクレイピング前の待機」を2000–5000msに設定することもできます。

トラブルシューティング

  • ダッシュボードからAPIキーを確認
  • 末尾のスペースを削除
  • Apify入力フォームで再入力
  • 待機時間を増やす
  • URLが公開されているか/ログインが必要でないか確認
  • 異なる出力フォーマットを試す
  • スケジュールで実行を間隔を空ける
  • 多くのURLにはバッチを推奨
  • 必要に応じてOlostepプランをアップグレード
  • 国のパラメータを試す
  • 待機時間とパーサーを調整
  • ガイダンスのためにサポートに連絡

料金

OlostepはAPI使用量に基づいて課金されます(Apifyとは独立):
  • スクレイピング → スクレイプごと
  • バッチ → URLごと
  • クローリング → ページごと
  • マップ → 操作ごと
詳細はhttps://olostep.com/pricingをご覧ください。

セキュリティ

  • あなたのAPIキーは実行時にBearerトークンとして送信されます。
  • キーをバージョン管理にコミットしないでください; Apifyは入力をKey‑Value Storeに保存します。
  • ローカル開発では、キーをstorage/key_value_stores/default/INPUT.jsonに保持(gitignoreされています)。

関連リソース

スクレイピングAPI

任意のURLからLLMに適したMarkdown、HTML、テキスト、または構造化されたJSONを抽出。

バッチAPI

最大10,000のURLを同時に処理し、後で結果を取得。

クローリングAPI

サイトのコンテンツを再帰的に発見し、スクレイピング。

マップAPI

バッチスクレイピングの準備のためにウェブサイト上のすべてのURLを取得。

サポート

Apifyウェブサイト

Apifyプラットフォーム

Apifyドキュメント

Apifyプラットフォーム&SDKドキュメント

ドキュメンテーション

完全なAPIドキュメント

サポートメール