作成できるもの
ウェブサイトをスクレイピング
任意の単一URLからMarkdown、HTML、JSON、またはテキストでコンテンツを抽出
URLを一括スクレイピング
構造化された出力で大規模なURLリストを並行処理
クローリングを作成
リンクされたページを発見し、スクレイピングして完全なデータセットを構築
マップを作成
ウェブサイトからすべてのURLを抽出(サイトマップのような発見)
AI駆動の回答
質問をして、ソース付きの構造化されたJSON回答を取得
クイックスタート
1) Apify CLIをインストール
2) Olostep APIキーを取得
Olostepダッシュボード → APIキーから取得。3) Olostep Actorをローカルで実行
olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json
入力例:
4) Apifyにデプロイ(クラウド)
Apifyコンソールでの実行(ステップバイステップ)
- Apifyコンソールでアクターを開く → ソース → 入力。
- マニュアルタブで「Olostep APIキー」フィールドが表示されます。Olostepダッシュボードからキーを貼り付けます。
- 操作を選択(デフォルトは「スクレイピング」)。
- 関連フィールドを入力(「スクレイピング」の場合、「スクレイピングするURL」を設定)。
- 保存 → 開始をクリック。
- 実行が終了したら、データセットタブを開いて結果をダウンロード(JSON/CSV/Excel)。
- 「スクレイピングするURL」にはスキームを付けても付けなくても構いません。欠けている場合、アクターは自動的に
https://を追加します。 - サイトがJavaScriptを多用していてタイムアウトが発生する場合は、「スクレイピング前の待機」を2000〜5000msに設定して再実行してください。
利用可能な操作
ウェブサイトをスクレイピング
単一のURLからコンテンツを抽出します。ページレベルの自動化に最適です。“scrape”である必要があります
あなたのOlostep APIキー(Bearer)
スクレイピングするURL(http://またはhttps://を含む必要があります)
Markdown、HTML、JSON、テキストのいずれか
オプションの国コード(例:“US”、“GB”、“CA”)
JavaScriptレンダリングのためのオプションの待機時間(0〜10000ms)
オプションのパーサーID(例:“@olostep/amazon-product”)
- id, url, status, formats
- markdown_content / html_content / json_content / text_content
- ホストされたURL(利用可能な場合)、ページメタデータ
URLを一括スクレイピング
多くのURLを一度に処理し、一貫したフォーマットと構造を保ちます。“batch”である必要があります
あなたのOlostep APIキー
urlとオプションのcustom_idを含むオブジェクトのJSON配列例:
[{"url":"https://example.com","custom_id":"site1"}]Markdown、HTML、JSON、テキストのいずれか
オプションの国コード
JSサイトのためのオプションの待機時間
オプションのパーサーID
- batch_id, status, total_urls, created_at, formats, country, parser, urls[]
クローリングを作成
リンクをたどり、開始URLから複数のページをスクレイピングします。“crawl”である必要があります
あなたのOlostep APIキー
クローリングの開始URL
クローリングする最大ページ数
ページ内リンクをたどる
Markdown、HTML、JSON、テキストのいずれか
オプションの国コード
オプションのパーサーID
- crawl_id, object, status, start_url, max_pages, follow_links, created, formats
マップを作成
ウェブサイト上のすべてのURLを発見し、後で一括スクレイピングの準備をします。“map”である必要があります
あなたのOlostep APIキー
マッピングするウェブサイト
オプションのクエリフィルター
URLの制限数
含めるグロブ(例:“/products/**”)
除外するグロブ(例:“/admin/**”)
- map_id, object, website_url, total_urls, urls[], search_query, top_n
JSON例をコピー&ペースト(コンソール → 入力 → JSON)
スクレイピング
バッチ
クローリング
マップ
回答
ワークフロー例
製品を発見してスクレイピング
製品を発見してスクレイピング
- マップを作成 → “/products/**“を含める
- URLを解析 → バッチ配列を構築
- URLを一括スクレイピング → フォーマット:JSON
- Google Sheets / Airtableに送信
日々のコンテンツ監視
日々のコンテンツ監視
- アクターをスケジュール(毎日)
- ウェブサイトをスクレイピング → フォーマット:Markdown
- LLMで要約
- Slackで通知
競合知識ベース
競合知識ベース
- クローリングを作成(ブログ/ドキュメント)
- Notionに出力を保存
- スケジュールで毎週更新
専門のパーサー
Olostepは人気のあるサイトのデータを構造化するためのパーサーをサポートしています。Amazon製品
@olostep/amazon-product → タイトル、価格、評価、レビュー、画像、バリエーションGoogle検索
@olostep/google-search → 結果、タイトル、スニペット、URLGoogleマップ
@olostep/google-maps → ビジネス情報、レビュー、評価、場所その他のパーサー
メール抽出器、ソーシャルハンドルファインダー、カレンダーリンク抽出器などを探索
ベストプラクティス
3つ以上のURLにはバッチを推奨
3つ以上のURLにはバッチを推奨
より速く、安価で、監視が容易で、レート制限を尊重します。
適切な待機時間を使用
適切な待機時間を使用
JSを多用するサイト:
wait_before_scrapingを増やす(例:2000–5000ms)。スクレイピング前にフィルター
スクレイピング前にフィルター
不要なタスクを避ける — まず変更を確認し、重複排除の状態を保持。
ホストされたURLを介して大きなコンテンツを保存
ホストされたURLを介して大きなコンテンツを保存
Apifyフローでのペイロードサイズ制限を回避するためにホストされた出力を使用。
非同期操作を長時間実行として扱う
非同期操作を長時間実行として扱う
バッチ/クローリング/マップはIDを返します; 後で取得するか、遅延でチェーン。
一時的なタイムアウトをクリーンに処理
一時的なタイムアウトをクリーンに処理
504または一時的なタイムアウトが表示された場合、アクターは短い待機時間で自動的に1回再試行します。
JSを多用するページには「スクレイピング前の待機」を2000–5000msに設定することもできます。
JSを多用するページには「スクレイピング前の待機」を2000–5000msに設定することもできます。
トラブルシューティング
認証に失敗しました
認証に失敗しました
- ダッシュボードからAPIキーを確認
- 末尾のスペースを削除
- Apify入力フォームで再入力
コンテンツが空です
コンテンツが空です
- 待機時間を増やす
- URLが公開されているか/ログインが必要でないか確認
- 異なる出力フォーマットを試す
レート制限を超えました
レート制限を超えました
- スケジュールで実行を間隔を空ける
- 多くのURLにはバッチを推奨
- 必要に応じてOlostepプランをアップグレード
ブロックされたサイトまたは動的サイト
ブロックされたサイトまたは動的サイト
- 国のパラメータを試す
- 待機時間とパーサーを調整
- ガイダンスのためにサポートに連絡
料金
OlostepはAPI使用量に基づいて課金されます(Apifyとは独立):- スクレイピング → スクレイプごと
- バッチ → URLごと
- クローリング → ページごと
- マップ → 操作ごと
https://olostep.com/pricingをご覧ください。
セキュリティ
- あなたのAPIキーは実行時にBearerトークンとして送信されます。
- キーをバージョン管理にコミットしないでください; Apifyは入力をKey‑Value Storeに保存します。
- ローカル開発では、キーを
storage/key_value_stores/default/INPUT.jsonに保持(gitignoreされています)。
関連リソース
スクレイピングAPI
任意のURLからLLMに適したMarkdown、HTML、テキスト、または構造化されたJSONを抽出。
バッチAPI
最大10,000のURLを同時に処理し、後で結果を取得。
クローリングAPI
サイトのコンテンツを再帰的に発見し、スクレイピング。
マップAPI
バッチスクレイピングの準備のためにウェブサイト上のすべてのURLを取得。
サポート
Apifyウェブサイト
Apifyプラットフォーム
Apifyドキュメント
Apifyプラットフォーム&SDKドキュメント
ドキュメンテーション
完全なAPIドキュメント