構築できるもの
ウェブサイトをスクレイプ
任意の単一URLからMarkdown、HTML、JSON、またはテキストでコンテンツを抽出
URLをバッチスクレイプ
構造化された出力で大規模なURLリストを並列処理
クロールを作成
リンクされたページを発見し、スクレイプして完全なデータセットを構築
マップを作成
ウェブサイトからすべてのURLを抽出(サイトマップのような発見)
AI駆動の回答
質問をして、ソース付きの構造化されたJSON回答を取得
クイックスタート
1) Apify CLIをインストール
2) Olostep APIキーを取得
Olostepダッシュボード → APIキー。3) Olostep Actorをローカルで実行
olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json
入力例:
4) Apifyにデプロイ(クラウド)
Apifyコンソールでの実行(ステップバイステップ)
- Apifyコンソールでアクターを開く → ソース → 入力。
- マニュアルタブで「Olostep APIキー」フィールドが表示されます。Olostepダッシュボードからキーを貼り付けます。
- 操作を選択(デフォルトは「scrape」)。
- 関連フィールドを入力(「scrape」の場合、「URL to Scrape」を設定)。
- 保存 → 開始をクリック。
- 実行が終了したら、データセットタブを開いて結果をダウンロード(JSON/CSV/Excel)。
- 「URL to Scrape」にはスキームの有無にかかわらず貼り付け可能です。欠落している場合、アクターは自動的に
https://を付加します。 - サイトがJavaScriptを多用していてタイムアウトが発生する場合、「Wait Before Scraping」を2000〜5000 msに設定して再実行してください。
利用可能な操作
ウェブサイトをスクレイプ
単一のURLからコンテンツを抽出します。ページレベルの自動化に最適です。“scrape”である必要があります
あなたのOlostep APIキー(Bearer)
スクレイプするURL(http://またはhttps://を含む必要があります)
Markdown、HTML、JSON、Textのいずれか
オプションの国コード(例:“US”, “GB”, “CA”)
JavaScriptレンダリング用のオプションの待機時間(0〜10000 ms)
オプションのパーサーID(例:“@olostep/amazon-product”)
- id、url、status、formats
- markdown_content / html_content / json_content / text_content
- ホストされたURL(利用可能な場合)、ページメタデータ
URLをバッチスクレイプ
多くのURLを一度に処理し、一貫したフォーマットと構造で出力します。“batch”である必要があります
あなたのOlostep APIキー
urlとオプションのcustom_idを含むオブジェクトのJSON配列例:
[{"url":"https://example.com","custom_id":"site1"}]Markdown、HTML、JSON、Textのいずれか
オプションの国コード
JSサイト用のオプションの待機時間
オプションのパーサーID
- batch_id、status、total_urls、created_at、formats、country、parser、urls[]
クロールを作成
リンクをたどり、開始URLから複数のページをスクレイプします。“crawl”である必要があります
あなたのOlostep APIキー
クロールの開始URL
クロールする最大ページ数
ページ内リンクをたどる
Markdown、HTML、JSON、Textのいずれか
オプションの国コード
オプションのパーサーID
- crawl_id、object、status、start_url、max_pages、follow_links、created、formats
マップを作成
ウェブサイト上のすべてのURLを発見し、後でバッチスクレイプの準備をします。“map”である必要があります
あなたのOlostep APIキー
マップするウェブサイト
オプションのクエリフィルタ
URLの数を制限
含めるグロブ(例:“/products/**”)
除外するグロブ(例:“/admin/**”)
- map_id、object、website_url、total_urls、urls[]、search_query、top_n
JSON例をコピー&ペースト(コンソール → 入力 → JSON)
スクレイプ
バッチ
クロール
マップ
回答
例のワークフロー
製品を発見してスクレイプ
製品を発見してスクレイプ
- マップを作成 → “/products/**“を含める
- URLを解析 → バッチ配列を構築
- URLをバッチスクレイプ → フォーマット:JSON
- Google Sheets / Airtableに送信
日々のコンテンツ監視
日々のコンテンツ監視
- アクターをスケジュール(日次)
- ウェブサイトをスクレイプ → フォーマット:Markdown
- LLMで要約
- Slackで通知
競合知識ベース
競合知識ベース
- クロールを作成(ブログ/ドキュメント)
- 出力をNotionに保存
- スケジュールで毎週更新
専門的なパーサー
Olostepは人気のあるサイト向けにデータを構造化するパーサーをサポートしています。Amazon製品
@olostep/amazon-product → タイトル、価格、評価、レビュー、画像、バリエーションGoogle検索
@olostep/google-search → 結果、タイトル、スニペット、URLGoogleマップ
@olostep/google-maps → ビジネス情報、レビュー、評価、場所その他のパーサー
メール抽出器、ソーシャルハンドルファインダー、カレンダーリンク抽出器などを探索
ベストプラクティス
3つ以上のURLにはバッチを優先
3つ以上のURLにはバッチを優先
より速く、安価で、監視が容易で、レート制限を尊重します。
適切な待機時間を使用
適切な待機時間を使用
JSを多用するサイト:
wait_before_scrapingを増やす(例:2000〜5000ms)。スクレイプ前にフィルタリング
スクレイプ前にフィルタリング
不要なタスクを避けるために、まず変更を確認し、重複排除状態を維持します。
大きなコンテンツはホストされたURLで保存
大きなコンテンツはホストされたURLで保存
Apifyフローでのペイロードサイズ制限を回避するためにホストされた出力を使用します。
非同期操作を長時間実行として扱う
非同期操作を長時間実行として扱う
バッチ/クロール/マップはIDを返します。後で取得するか、遅延を伴ってチェーンします。
一時的なタイムアウトをクリーンに処理
一時的なタイムアウトをクリーンに処理
504または一時的なタイムアウトが表示された場合、アクターは短い待機時間で自動的に1回再試行します。
JSを多用するページには「Wait Before Scraping」を2000〜5000 msに設定することもできます。
JSを多用するページには「Wait Before Scraping」を2000〜5000 msに設定することもできます。
トラブルシューティング
認証に失敗しました
認証に失敗しました
- ダッシュボードからAPIキーを確認
- 末尾のスペースを削除
- Apify入力フォームで再入力
コンテンツが空
コンテンツが空
- 待機時間を増やす
- URLが公開されているか/ログイン不要であるか確認
- 別の出力フォーマットを試す
レート制限を超過
レート制限を超過
- スケジュールで実行を間隔を空ける
- 多くのURLにはバッチを優先
- 必要に応じてOlostepプランをアップグレード
ブロックされたまたは動的なサイト
ブロックされたまたは動的なサイト
- 国パラメータを試す
- 待機時間とパーサーを調整
- ガイダンスのためにサポートに連絡
価格
OlostepはAPIの使用量に応じて課金されます(Apifyとは独立):- スクレイプ → スクレイプごと
- バッチ → URLごと
- クロール → ページごと
- マップ → 操作ごと
https://olostep.com/pricingをご覧ください。
セキュリティ
- あなたのAPIキーは実行時にBearerトークンとして送信されます。
- キーをバージョン管理にコミットしないでください。Apifyは入力をKey-Value Storeに保存します。
- ローカル開発では、キーを
storage/key_value_stores/default/INPUT.jsonに保持します(gitignoreされています)。
関連リソース
スクレイプAPI
任意のURLからLLM対応のMarkdown、HTML、テキスト、または構造化されたJSONを抽出します。
バッチAPI
最大10,000のURLを同時に処理し、後で結果を取得します。
クロールAPI
サイトのコンテンツを再帰的に発見し、スクレイプします。
マップAPI
バッチスクレイプの準備のためにウェブサイト上のすべてのURLを取得します。