メインコンテンツへスキップ
Olostepはウェブ検索、スクレイピング、クロールのAPIであり、ウェブデータを検索、抽出、構造化するためのAPIです。このガイドでは、OlostepをApify Actorsと組み合わせて、信頼性のあるウェブデータパイプラインをエンドツーエンドで構築する方法を紹介します。

何が作れるか

ウェブサイトをスクレイピング

任意の単一URLからMarkdown、HTML、JSON、またはテキストでコンテンツを抽出

URLをバッチスクレイピング

構造化された出力で大規模なURLリストを並行して処理

クロールを作成

リンクされたページを発見し、完全なデータセットを構築

マップを作成

ウェブサイトからすべてのURLを抽出(サイトマップのような発見)

AIによる回答

質問をして、ソース付きの構造化されたJSON回答を取得

クイックスタート

1) Apify CLIをインストール

npm install -g apify-cli
apify --version

2) Olostep APIキーを取得

Olostepダッシュボード → APIキー。

3) Olostep Actorをローカルで実行

cd olostep-tools/integrations/apify
apify run
デフォルトのローカル入力ファイルは以下にあります: olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json 入力例:
{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Apifyにデプロイ(クラウド)

apify login
apify push
その後、Apifyコンソールを開き → Actors → 必要な入力でアクターを実行します。

Apifyコンソールで実行(ステップバイステップ)

  1. Apifyコンソールでアクターを開き → ソース → 入力。
  2. マニュアルタブで「Olostep APIキー」フィールドが表示されます。Olostepダッシュボードからキーを貼り付けます。
  3. 操作を選択(デフォルトは「scrape」)。
  4. 関連フィールドを入力(「scrape」の場合、「URL to Scrape」を設定)。
  5. 保存をクリック → 開始。
  6. 実行が終了したら、データセットタブを開いて結果をダウンロード(JSON/CSV/Excel)。
注意:
  • 「URL to Scrape」にはスキームの有無にかかわらず貼り付け可能です。欠落している場合、アクターは自動的にhttps://を付加します。
  • サイトがJavaScriptを多用していてタイムアウトが発生する場合、「Wait Before Scraping」を2000–5000 msに設定して再実行してください。

利用可能な操作

ウェブサイトをスクレイピング

単一のURLからコンテンツを抽出します。ページレベルの自動化に最適です。
operation
constant
デフォルト:"scrape"
“scrape”である必要があります
apiKey
string
必須
あなたのOlostep APIキー(Bearer)
url_to_scrape
string
必須
formats
dropdown
デフォルト:"markdown"
Markdown、HTML、JSON、Textのいずれか
country
string
任意の国コード(例:“US”, “GB”, “CA”)
wait_before_scraping
integer
JavaScriptレンダリングのための任意の待機時間(0–10000 ms)
parser
string
任意のパーサーID(例:“@olostep/amazon-product”)
出力フィールド:
  • id, url, status, formats
  • markdown_content / html_content / json_content / text_content
  • ホストされたURL(利用可能な場合)、ページメタデータ

URLをバッチスクレイピング

多くのURLを一度に処理し、一貫したフォーマットと構造で出力。
operation
constant
デフォルト:"batch"
“batch”である必要があります
apiKey
string
必須
あなたのOlostep APIキー
batch_array
text
必須
urlと任意のcustom_idを含むオブジェクトのJSON配列
例:[{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
デフォルト:"markdown"
Markdown、HTML、JSON、Textのいずれか
country
string
任意の国コード
wait_before_scraping
integer
JSサイトのための任意の待機時間
parser
string
任意のパーサーID
出力フィールド:
  • batch_id, status, total_urls, created_at, formats, country, parser, urls[]

クロールを作成

リンクをたどり、開始URLから複数のページをスクレイピング。
operation
constant
デフォルト:"crawl"
“crawl”である必要があります
apiKey
string
必須
あなたのOlostep APIキー
start_url
string
必須
クロールの開始URL
max_pages
integer
デフォルト:"10"
クロールする最大ページ数。1に設定すると開始URLのみをスクレイピング。
formats
dropdown
デフォルト:"markdown"
Markdown、HTML、JSON、Textのいずれか
country
string
任意の国コード
parser
string
任意のパーサーID
出力フィールド:
  • crawl_id, object, status, start_url, max_pages, created, formats

マップを作成

ウェブサイト上のすべてのURLを発見し、後でバッチスクレイピングの準備をします。
operation
constant
デフォルト:"map"
“map”である必要があります
apiKey
string
必須
あなたのOlostep APIキー
website_url
string
必須
マップするウェブサイト
search_query
string
任意のクエリフィルタ
top_n
integer
URLの数を制限
include_patterns
string
含めるグロブ(例:“/products/**”)
exclude_patterns
string
除外するグロブ(例:“/admin/**”)
出力フィールド:
  • map_id, object, website_url, total_urls, urls[], search_query, top_n

JSON例をコピー&ペースト(コンソール → 入力 → JSON)

スクレイピング

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

バッチ

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

クロール

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "formats": "markdown"
}

マップ

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

回答

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

ワークフローの例

  1. マップを作成 → “/products/**“を含める
  2. URLを解析 → バッチ配列を構築
  3. URLをバッチスクレイピング → フォーマット:JSON
  4. Google Sheets / Airtableに送信
  1. アクターをスケジュール(毎日)
  2. ウェブサイトをスクレイピング → フォーマット:Markdown
  3. LLMで要約
  4. Slackで通知
  1. クロールを作成(ブログ/ドキュメント)
  2. 出力をNotionに保存
  3. スケジュールで毎週更新

専門のパーサー

Olostepは人気のあるサイト向けにデータを構造化するパーサーをサポートしています。

Amazon商品

@olostep/amazon-product → タイトル、価格、評価、レビュー、画像、バリエーション

Google検索

@olostep/google-search → 結果、タイトル、スニペット、URL

Googleマップ

@olostep/google-maps → ビジネス情報、レビュー、評価、場所

その他のパーサー

メール抽出器、ソーシャルハンドルファインダー、カレンダーリンク抽出器などを探索

ベストプラクティス

より速く、安価で、監視が容易で、レート制限を尊重。
JSを多用するサイト:wait_before_scrapingを増やす(例:2000–5000ms)。
不要なタスクを避ける — まず変更を確認し、重複除去状態を維持。
Apifyフローでのペイロードサイズ制限を回避するためにホストされた出力を使用。
バッチ/クロール/マップはIDを返します;後で取得するか、遅延を伴ってチェーン。
504または一時的なタイムアウトが発生した場合、アクターは短い待機時間で自動的に1回再試行します。
JSを多用するページには「Wait Before Scraping」を2000–5000 msに設定することもできます。

トラブルシューティング

  • ダッシュボードからAPIキーを確認
  • 末尾のスペースを削除
  • Apify入力フォームに再入力
  • 待機時間を増やす
  • URLが公開されている/ログイン不要であることを確認
  • 別の出力フォーマットを試す
  • スケジュールで実行を間隔を空ける
  • 多くのURLにはバッチを優先
  • 必要に応じてOlostepプランをアップグレード
  • 国パラメータを試す
  • 待機時間とパーサーを調整
  • ガイダンスについてサポートに連絡

料金

OlostepはAPI使用量に基づいて課金されます(Apifyとは独立):
  • スクレイピング → スクレイプごと
  • バッチ → URLごと
  • クロール → ページごと
  • マップ → 操作ごと
https://www.olostep.com/pricingを参照してください。

セキュリティ

  • あなたのAPIキーは実行時にBearerトークンとして送信されます。
  • キーをバージョン管理にコミットしないでください;Apifyは入力をKey‑Value Storeに保存します。
  • ローカル開発では、キーをstorage/key_value_stores/default/INPUT.jsonに保持してください(gitignoreされています)。

関連リソース

Scrapes API

任意のURLからLLMに優しいMarkdown、HTML、テキスト、または構造化されたJSONを抽出。

Batches API

最大10,000のURLを同時に処理し、後で結果を取得。

Crawls API

サイトのコンテンツを再帰的に発見し、スクレイピング。

Maps API

バッチスクレイピングの準備のためにウェブサイト上のすべてのURLを取得。

サポート

Apifyウェブサイト

Apifyプラットフォーム

Apifyドキュメント

Apifyプラットフォーム & SDKドキュメント

ドキュメント

完全なAPIドキュメント

サポートメール