Olostepは、ウェブ検索、スクレイピング、クローリングのためのAPIで、ウェブデータを検索、抽出、構造化するためのAPIです。このガイドでは、OlostepをApify Actorsと組み合わせて、信頼性のあるエンドツーエンドのウェブデータパイプラインを構築する方法を紹介します。Documentation Index
Fetch the complete documentation index at: https://docs.olostep.com/llms.txt
Use this file to discover all available pages before exploring further.
作成できるもの
ウェブサイトをスクレイピング
任意の単一URLからMarkdown、HTML、JSON、またはテキストでコンテンツを抽出
URLを一括スクレイピング
構造化された出力で大規模なURLリストを並行処理
クローリングを作成
リンクされたページを発見し、スクレイピングして完全なデータセットを構築
マップを作成
ウェブサイトからすべてのURLを抽出(サイトマップのような発見)
AI駆動の回答
質問をして、ソース付きの構造化されたJSON回答を取得
クイックスタート
1) Apify CLIをインストール
2) Olostep APIキーを取得
Olostepダッシュボード → APIキーから取得。3) Olostep Actorをローカルで実行
olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json
入力例:
4) Apifyにデプロイ(クラウド)
Apifyコンソールでの実行(ステップバイステップ)
- Apifyコンソールでアクターを開く → ソース → 入力。
- マニュアルタブで「Olostep APIキー」フィールドが表示されます。Olostepダッシュボードからキーを貼り付けます。
- 操作を選択(デフォルトは「スクレイピング」)。
- 関連フィールドを入力(「スクレイピング」の場合、「スクレイピングするURL」を設定)。
- 保存 → 開始をクリック。
- 実行が終了したら、データセットタブを開いて結果をダウンロード(JSON/CSV/Excel)。
- 「スクレイピングするURL」にはスキームを付けても付けなくても構いません。欠けている場合、アクターは自動的に
https://を追加します。 - サイトがJavaScriptを多用していてタイムアウトが発生する場合は、「スクレイピング前の待機」を2000〜5000msに設定して再実行してください。
利用可能な操作
ウェブサイトをスクレイピング
単一のURLからコンテンツを抽出します。ページレベルの自動化に最適です。“scrape”である必要があります
あなたのOlostep APIキー(Bearer)
スクレイピングするURL(http://またはhttps://を含む必要があります)
Markdown、HTML、JSON、テキストのいずれか
オプションの国コード(例:“US”、“GB”、“CA”)
JavaScriptレンダリングのためのオプションの待機時間(0〜10000ms)
オプションのパーサーID(例:“@olostep/amazon-product”)
- id, url, status, formats
- markdown_content / html_content / json_content / text_content
- ホストされたURL(利用可能な場合)、ページメタデータ
URLを一括スクレイピング
多くのURLを一度に処理し、一貫したフォーマットと構造を保ちます。“batch”である必要があります
あなたのOlostep APIキー
urlとオプションのcustom_idを含むオブジェクトのJSON配列例:
[{"url":"https://example.com","custom_id":"site1"}]Markdown、HTML、JSON、テキストのいずれか
オプションの国コード
JSサイトのためのオプションの待機時間
オプションのパーサーID
- batch_id, status, total_urls, created_at, formats, country, parser, urls[]
クローリングを作成
リンクをたどり、開始URLから複数のページをスクレイピングします。“crawl”である必要があります
あなたのOlostep APIキー
クローリングの開始URL
クローリングする最大ページ数
ページ内リンクをたどる
Markdown、HTML、JSON、テキストのいずれか
オプションの国コード
オプションのパーサーID
- crawl_id, object, status, start_url, max_pages, follow_links, created, formats
マップを作成
ウェブサイト上のすべてのURLを発見し、後で一括スクレイピングの準備をします。“map”である必要があります
あなたのOlostep APIキー
マッピングするウェブサイト
オプションのクエリフィルター
URLの制限数
含めるグロブ(例:“/products/**”)
除外するグロブ(例:“/admin/**”)
- map_id, object, website_url, total_urls, urls[], search_query, top_n
JSON例をコピー&ペースト(コンソール → 入力 → JSON)
スクレイピング
バッチ
クローリング
マップ
回答
ワークフロー例
製品を発見してスクレイピング
製品を発見してスクレイピング
- マップを作成 → “/products/**“を含める
- URLを解析 → バッチ配列を構築
- URLを一括スクレイピング → フォーマット:JSON
- Google Sheets / Airtableに送信
日々のコンテンツ監視
日々のコンテンツ監視
- アクターをスケジュール(毎日)
- ウェブサイトをスクレイピング → フォーマット:Markdown
- LLMで要約
- Slackで通知
競合知識ベース
競合知識ベース
- クローリングを作成(ブログ/ドキュメント)
- Notionに出力を保存
- スケジュールで毎週更新
専門のパーサー
Olostepは人気のあるサイトのデータを構造化するためのパーサーをサポートしています。Amazon製品
@olostep/amazon-product → タイトル、価格、評価、レビュー、画像、バリエーションGoogle検索
@olostep/google-search → 結果、タイトル、スニペット、URLGoogleマップ
@olostep/google-maps → ビジネス情報、レビュー、評価、場所その他のパーサー
メール抽出器、ソーシャルハンドルファインダー、カレンダーリンク抽出器などを探索
ベストプラクティス
3つ以上のURLにはバッチを推奨
3つ以上のURLにはバッチを推奨
より速く、安価で、監視が容易で、レート制限を尊重します。
適切な待機時間を使用
適切な待機時間を使用
JSを多用するサイト:
wait_before_scrapingを増やす(例:2000–5000ms)。スクレイピング前にフィルター
スクレイピング前にフィルター
不要なタスクを避ける — まず変更を確認し、重複排除の状態を保持。
ホストされたURLを介して大きなコンテンツを保存
ホストされたURLを介して大きなコンテンツを保存
Apifyフローでのペイロードサイズ制限を回避するためにホストされた出力を使用。
非同期操作を長時間実行として扱う
非同期操作を長時間実行として扱う
バッチ/クローリング/マップはIDを返します; 後で取得するか、遅延でチェーン。
一時的なタイムアウトをクリーンに処理
一時的なタイムアウトをクリーンに処理
504または一時的なタイムアウトが表示された場合、アクターは短い待機時間で自動的に1回再試行します。
JSを多用するページには「スクレイピング前の待機」を2000–5000msに設定することもできます。
JSを多用するページには「スクレイピング前の待機」を2000–5000msに設定することもできます。
トラブルシューティング
認証に失敗しました
認証に失敗しました
- ダッシュボードからAPIキーを確認
- 末尾のスペースを削除
- Apify入力フォームで再入力
コンテンツが空です
コンテンツが空です
- 待機時間を増やす
- URLが公開されているか/ログインが必要でないか確認
- 異なる出力フォーマットを試す
レート制限を超えました
レート制限を超えました
- スケジュールで実行を間隔を空ける
- 多くのURLにはバッチを推奨
- 必要に応じてOlostepプランをアップグレード
ブロックされたサイトまたは動的サイト
ブロックされたサイトまたは動的サイト
- 国のパラメータを試す
- 待機時間とパーサーを調整
- ガイダンスのためにサポートに連絡
料金
OlostepはAPI使用量に基づいて課金されます(Apifyとは独立):- スクレイピング → スクレイプごと
- バッチ → URLごと
- クローリング → ページごと
- マップ → 操作ごと
https://olostep.com/pricingをご覧ください。
セキュリティ
- あなたのAPIキーは実行時にBearerトークンとして送信されます。
- キーをバージョン管理にコミットしないでください; Apifyは入力をKey‑Value Storeに保存します。
- ローカル開発では、キーを
storage/key_value_stores/default/INPUT.jsonに保持(gitignoreされています)。
関連リソース
スクレイピングAPI
任意のURLからLLMに適したMarkdown、HTML、テキスト、または構造化されたJSONを抽出。
バッチAPI
最大10,000のURLを同時に処理し、後で結果を取得。
クローリングAPI
サイトのコンテンツを再帰的に発見し、スクレイピング。
マップAPI
バッチスクレイピングの準備のためにウェブサイト上のすべてのURLを取得。
サポート
Apifyウェブサイト
Apifyプラットフォーム
Apifyドキュメント
Apifyプラットフォーム&SDKドキュメント
ドキュメンテーション
完全なAPIドキュメント