メインコンテンツへスキップ
Olostepはウェブ検索、スクレイピング、クロールAPIであり、ウェブデータを検索、抽出、構造化するためのAPIです。このガイドでは、OlostepをApify Actorsと組み合わせて、信頼性のあるウェブデータパイプラインをエンドツーエンドで構築する方法を示します。

構築できるもの

ウェブサイトをスクレイプ

任意の単一URLからMarkdown、HTML、JSON、またはテキストでコンテンツを抽出

URLをバッチスクレイプ

構造化された出力で大規模なURLリストを並列処理

クロールを作成

リンクされたページを発見し、スクレイプして完全なデータセットを構築

マップを作成

ウェブサイトからすべてのURLを抽出(サイトマップのような発見)

AI駆動の回答

質問をして、ソース付きの構造化されたJSON回答を取得

クイックスタート

1) Apify CLIをインストール

npm install -g apify-cli
apify --version

2) Olostep APIキーを取得

Olostepダッシュボード → APIキー。

3) Olostep Actorをローカルで実行

cd olostep-tools/integrations/apify
apify run
デフォルトのローカル入力ファイルは次の場所にあります: olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json 入力例:
{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Apifyにデプロイ(クラウド)

apify login
apify push
その後、Apifyコンソール → Actors → お好みの入力でアクターを実行。

Apifyコンソールでの実行(ステップバイステップ)

  1. Apifyコンソールでアクターを開く → ソース → 入力。
  2. マニュアルタブで「Olostep APIキー」フィールドが表示されます。Olostepダッシュボードからキーを貼り付けます。
  3. 操作を選択(デフォルトは「scrape」)。
  4. 関連フィールドを入力(「scrape」の場合、「URL to Scrape」を設定)。
  5. 保存 → 開始をクリック。
  6. 実行が終了したら、データセットタブを開いて結果をダウンロード(JSON/CSV/Excel)。
注意:
  • 「URL to Scrape」にはスキームの有無にかかわらず貼り付け可能です。欠落している場合、アクターは自動的にhttps://を付加します。
  • サイトがJavaScriptを多用していてタイムアウトが発生する場合、「Wait Before Scraping」を2000〜5000 msに設定して再実行してください。

利用可能な操作

ウェブサイトをスクレイプ

単一のURLからコンテンツを抽出します。ページレベルの自動化に最適です。
operation
constant
デフォルト:"scrape"
“scrape”である必要があります
apiKey
string
必須
あなたのOlostep APIキー(Bearer)
url_to_scrape
string
必須
formats
dropdown
デフォルト:"markdown"
Markdown、HTML、JSON、Textのいずれか
country
string
オプションの国コード(例:“US”, “GB”, “CA”)
wait_before_scraping
integer
JavaScriptレンダリング用のオプションの待機時間(0〜10000 ms)
parser
string
オプションのパーサーID(例:“@olostep/amazon-product”)
出力フィールド:
  • id、url、status、formats
  • markdown_content / html_content / json_content / text_content
  • ホストされたURL(利用可能な場合)、ページメタデータ

URLをバッチスクレイプ

多くのURLを一度に処理し、一貫したフォーマットと構造で出力します。
operation
constant
デフォルト:"batch"
“batch”である必要があります
apiKey
string
必須
あなたのOlostep APIキー
batch_array
text
必須
urlとオプションのcustom_idを含むオブジェクトのJSON配列
例:[{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
デフォルト:"markdown"
Markdown、HTML、JSON、Textのいずれか
country
string
オプションの国コード
wait_before_scraping
integer
JSサイト用のオプションの待機時間
parser
string
オプションのパーサーID
出力フィールド:
  • batch_id、status、total_urls、created_at、formats、country、parser、urls[]

クロールを作成

リンクをたどり、開始URLから複数のページをスクレイプします。
operation
constant
デフォルト:"crawl"
“crawl”である必要があります
apiKey
string
必須
あなたのOlostep APIキー
start_url
string
必須
クロールの開始URL
max_pages
integer
デフォルト:"10"
クロールする最大ページ数
ページ内リンクをたどる
formats
dropdown
デフォルト:"markdown"
Markdown、HTML、JSON、Textのいずれか
country
string
オプションの国コード
parser
string
オプションのパーサーID
出力フィールド:
  • crawl_id、object、status、start_url、max_pages、follow_links、created、formats

マップを作成

ウェブサイト上のすべてのURLを発見し、後でバッチスクレイプの準備をします。
operation
constant
デフォルト:"map"
“map”である必要があります
apiKey
string
必須
あなたのOlostep APIキー
website_url
string
必須
マップするウェブサイト
search_query
string
オプションのクエリフィルタ
top_n
integer
URLの数を制限
include_patterns
string
含めるグロブ(例:“/products/**”)
exclude_patterns
string
除外するグロブ(例:“/admin/**”)
出力フィールド:
  • map_id、object、website_url、total_urls、urls[]、search_query、top_n

JSON例をコピー&ペースト(コンソール → 入力 → JSON)

スクレイプ

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

バッチ

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

クロール

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

マップ

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

回答

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "Olostepの最新の資金調達ラウンドは何ですか?会社、ラウンド、日付、金額を提供してください。",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

例のワークフロー

  1. マップを作成 → “/products/**“を含める
  2. URLを解析 → バッチ配列を構築
  3. URLをバッチスクレイプ → フォーマット:JSON
  4. Google Sheets / Airtableに送信
  1. アクターをスケジュール(日次)
  2. ウェブサイトをスクレイプ → フォーマット:Markdown
  3. LLMで要約
  4. Slackで通知
  1. クロールを作成(ブログ/ドキュメント)
  2. 出力をNotionに保存
  3. スケジュールで毎週更新

専門的なパーサー

Olostepは人気のあるサイト向けにデータを構造化するパーサーをサポートしています。

Amazon製品

@olostep/amazon-product → タイトル、価格、評価、レビュー、画像、バリエーション

Google検索

@olostep/google-search → 結果、タイトル、スニペット、URL

Googleマップ

@olostep/google-maps → ビジネス情報、レビュー、評価、場所

その他のパーサー

メール抽出器、ソーシャルハンドルファインダー、カレンダーリンク抽出器などを探索

ベストプラクティス

より速く、安価で、監視が容易で、レート制限を尊重します。
JSを多用するサイト:wait_before_scrapingを増やす(例:2000〜5000ms)。
不要なタスクを避けるために、まず変更を確認し、重複排除状態を維持します。
Apifyフローでのペイロードサイズ制限を回避するためにホストされた出力を使用します。
バッチ/クロール/マップはIDを返します。後で取得するか、遅延を伴ってチェーンします。
504または一時的なタイムアウトが表示された場合、アクターは短い待機時間で自動的に1回再試行します。
JSを多用するページには「Wait Before Scraping」を2000〜5000 msに設定することもできます。

トラブルシューティング

  • ダッシュボードからAPIキーを確認
  • 末尾のスペースを削除
  • Apify入力フォームで再入力
  • 待機時間を増やす
  • URLが公開されているか/ログイン不要であるか確認
  • 別の出力フォーマットを試す
  • スケジュールで実行を間隔を空ける
  • 多くのURLにはバッチを優先
  • 必要に応じてOlostepプランをアップグレード
  • 国パラメータを試す
  • 待機時間とパーサーを調整
  • ガイダンスのためにサポートに連絡

価格

OlostepはAPIの使用量に応じて課金されます(Apifyとは独立):
  • スクレイプ → スクレイプごと
  • バッチ → URLごと
  • クロール → ページごと
  • マップ → 操作ごと
詳細はhttps://olostep.com/pricingをご覧ください。

セキュリティ

  • あなたのAPIキーは実行時にBearerトークンとして送信されます。
  • キーをバージョン管理にコミットしないでください。Apifyは入力をKey-Value Storeに保存します。
  • ローカル開発では、キーをstorage/key_value_stores/default/INPUT.jsonに保持します(gitignoreされています)。

関連リソース

サポート