何が作れるか
ウェブサイトをスクレイピング
任意の単一URLからMarkdown、HTML、JSON、またはテキストでコンテンツを抽出
URLをバッチスクレイピング
構造化された出力で大規模なURLリストを並行して処理
クロールを作成
リンクされたページを発見し、完全なデータセットを構築
マップを作成
ウェブサイトからすべてのURLを抽出(サイトマップのような発見)
AIによる回答
質問をして、ソース付きの構造化されたJSON回答を取得
クイックスタート
1) Apify CLIをインストール
2) Olostep APIキーを取得
Olostepダッシュボード → APIキー。3) Olostep Actorをローカルで実行
olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json
入力例:
4) Apifyにデプロイ(クラウド)
Apifyコンソールで実行(ステップバイステップ)
- Apifyコンソールでアクターを開き → ソース → 入力。
- マニュアルタブで「Olostep APIキー」フィールドが表示されます。Olostepダッシュボードからキーを貼り付けます。
- 操作を選択(デフォルトは「scrape」)。
- 関連フィールドを入力(「scrape」の場合、「URL to Scrape」を設定)。
- 保存をクリック → 開始。
- 実行が終了したら、データセットタブを開いて結果をダウンロード(JSON/CSV/Excel)。
- 「URL to Scrape」にはスキームの有無にかかわらず貼り付け可能です。欠落している場合、アクターは自動的に
https://を付加します。 - サイトがJavaScriptを多用していてタイムアウトが発生する場合、「Wait Before Scraping」を2000–5000 msに設定して再実行してください。
利用可能な操作
ウェブサイトをスクレイピング
単一のURLからコンテンツを抽出します。ページレベルの自動化に最適です。“scrape”である必要があります
あなたのOlostep APIキー(Bearer)
スクレイピングするURL(http://またはhttps://を含む必要があります)
Markdown、HTML、JSON、Textのいずれか
任意の国コード(例:“US”, “GB”, “CA”)
JavaScriptレンダリングのための任意の待機時間(0–10000 ms)
任意のパーサーID(例:“@olostep/amazon-product”)
- id, url, status, formats
- markdown_content / html_content / json_content / text_content
- ホストされたURL(利用可能な場合)、ページメタデータ
URLをバッチスクレイピング
多くのURLを一度に処理し、一貫したフォーマットと構造で出力。“batch”である必要があります
あなたのOlostep APIキー
urlと任意のcustom_idを含むオブジェクトのJSON配列例:
[{"url":"https://example.com","custom_id":"site1"}]Markdown、HTML、JSON、Textのいずれか
任意の国コード
JSサイトのための任意の待機時間
任意のパーサーID
- batch_id, status, total_urls, created_at, formats, country, parser, urls[]
クロールを作成
リンクをたどり、開始URLから複数のページをスクレイピング。“crawl”である必要があります
あなたのOlostep APIキー
クロールの開始URL
クロールする最大ページ数。
1に設定すると開始URLのみをスクレイピング。Markdown、HTML、JSON、Textのいずれか
任意の国コード
任意のパーサーID
- crawl_id, object, status, start_url, max_pages, created, formats
マップを作成
ウェブサイト上のすべてのURLを発見し、後でバッチスクレイピングの準備をします。“map”である必要があります
あなたのOlostep APIキー
マップするウェブサイト
任意のクエリフィルタ
URLの数を制限
含めるグロブ(例:“/products/**”)
除外するグロブ(例:“/admin/**”)
- map_id, object, website_url, total_urls, urls[], search_query, top_n
JSON例をコピー&ペースト(コンソール → 入力 → JSON)
スクレイピング
バッチ
クロール
マップ
回答
ワークフローの例
商品を発見してスクレイピング
商品を発見してスクレイピング
- マップを作成 → “/products/**“を含める
- URLを解析 → バッチ配列を構築
- URLをバッチスクレイピング → フォーマット:JSON
- Google Sheets / Airtableに送信
日次コンテンツモニタリング
日次コンテンツモニタリング
- アクターをスケジュール(毎日)
- ウェブサイトをスクレイピング → フォーマット:Markdown
- LLMで要約
- Slackで通知
競合知識ベース
競合知識ベース
- クロールを作成(ブログ/ドキュメント)
- 出力をNotionに保存
- スケジュールで毎週更新
専門のパーサー
Olostepは人気のあるサイト向けにデータを構造化するパーサーをサポートしています。Amazon商品
@olostep/amazon-product → タイトル、価格、評価、レビュー、画像、バリエーションGoogle検索
@olostep/google-search → 結果、タイトル、スニペット、URLGoogleマップ
@olostep/google-maps → ビジネス情報、レビュー、評価、場所その他のパーサー
メール抽出器、ソーシャルハンドルファインダー、カレンダーリンク抽出器などを探索
ベストプラクティス
3つ以上のURLにはバッチを優先
3つ以上のURLにはバッチを優先
より速く、安価で、監視が容易で、レート制限を尊重。
適切な待機時間を使用
適切な待機時間を使用
JSを多用するサイト:
wait_before_scrapingを増やす(例:2000–5000ms)。スクレイピング前にフィルタリング
スクレイピング前にフィルタリング
不要なタスクを避ける — まず変更を確認し、重複除去状態を維持。
大きなコンテンツはホストされたURLで保存
大きなコンテンツはホストされたURLで保存
Apifyフローでのペイロードサイズ制限を回避するためにホストされた出力を使用。
非同期操作を長時間実行として扱う
非同期操作を長時間実行として扱う
バッチ/クロール/マップはIDを返します;後で取得するか、遅延を伴ってチェーン。
一時的なタイムアウトをクリーンに処理
一時的なタイムアウトをクリーンに処理
504または一時的なタイムアウトが発生した場合、アクターは短い待機時間で自動的に1回再試行します。
JSを多用するページには「Wait Before Scraping」を2000–5000 msに設定することもできます。
JSを多用するページには「Wait Before Scraping」を2000–5000 msに設定することもできます。
トラブルシューティング
認証に失敗しました
認証に失敗しました
- ダッシュボードからAPIキーを確認
- 末尾のスペースを削除
- Apify入力フォームに再入力
コンテンツが空
コンテンツが空
- 待機時間を増やす
- URLが公開されている/ログイン不要であることを確認
- 別の出力フォーマットを試す
レート制限を超過しました
レート制限を超過しました
- スケジュールで実行を間隔を空ける
- 多くのURLにはバッチを優先
- 必要に応じてOlostepプランをアップグレード
ブロックされたまたは動的なサイト
ブロックされたまたは動的なサイト
- 国パラメータを試す
- 待機時間とパーサーを調整
- ガイダンスについてサポートに連絡
料金
OlostepはAPI使用量に基づいて課金されます(Apifyとは独立):- スクレイピング → スクレイプごと
- バッチ → URLごと
- クロール → ページごと
- マップ → 操作ごと
https://www.olostep.com/pricingを参照してください。
セキュリティ
- あなたのAPIキーは実行時にBearerトークンとして送信されます。
- キーをバージョン管理にコミットしないでください;Apifyは入力をKey‑Value Storeに保存します。
- ローカル開発では、キーを
storage/key_value_stores/default/INPUT.jsonに保持してください(gitignoreされています)。
関連リソース
Scrapes API
任意のURLからLLMに優しいMarkdown、HTML、テキスト、または構造化されたJSONを抽出。
Batches API
最大10,000のURLを同時に処理し、後で結果を取得。
Crawls API
サイトのコンテンツを再帰的に発見し、スクレイピング。
Maps API
バッチスクレイピングの準備のためにウェブサイト上のすべてのURLを取得。
サポート
Apifyウェブサイト
Apifyプラットフォーム
Apifyドキュメント
Apifyプラットフォーム & SDKドキュメント
ドキュメント
完全なAPIドキュメント