メインコンテンツへスキップ
OlostepのAPIはオブジェクトを中心に設計されています。この設計を理解することで、より効果的な統合を構築することができます。この設計はStripeのAPI哲学に触発されています。

すべてがオブジェクト

Olostepのすべてのリソースは、ユニークな識別子を持つオブジェクトです。API、SDK、またはダッシュボードを通じて作成した場合でも、参照、更新、クエリできるオブジェクトが返されます。
リソースオブジェクトID形式
Scrapescrape_*scrape_abc123
Batchbatch_*batch_xyz789
Crawlcrawl_*crawl_def456
Mapmap_*map_ghi012
Answeranswer_*answer_jkl345
Filefile_*file_mno678
Scheduleschedule_*schedule_pqr901

オブジェクトにはライフサイクルがある

一部のOlostepオブジェクトは、statusフィールドを通じて状態を追跡します。この状態機械パターンにより、各リソースがライフサイクルのどの段階にあるかを正確に把握できます。

バッチ

バッチには、バッチ自体と個々のアイテムという2つのステータスレベルがあります。 バッチステータス:
in_progress → completed
ステータス説明
in_progressURLがスクレイピングされています
completed処理が完了しました
バッチレベルの失敗は非常に稀です。 バッチはほとんどの場合完了します — 一部のURLが失敗しても、バッチ自体はcompletedステータスに達します。致命的なインフラストラクチャの失敗(例:エンリッチメント中のLLMサービスの停止)の場合、バッチが失敗することがあります。これはバッチの0.01%未満に影響します。
アイテムステータス: バッチ内の各URLは、独自のステータスを持つ個別のアイテムとして追跡されます:
ステータス説明
successURLが正常にスクレイピングされました
failedURLをスクレイピングできませんでした
アイテムが失敗する原因:
  • URLがブロックされているかエラーを返す
  • パーサー出力が欠落している
  • ネットワーク/フェッチエラー
失敗したアイテムには、失敗を説明するcodemessageを含むerrorオブジェクトが含まれます。バッチは依然として完了します — 結果を処理する際に各アイテムのステータスを確認してください。

クローリング

in_progress → completed
ステータス説明
in_progressURLを積極的に発見し処理中
completedクローリングが完了しました
クローリングは常に完了します。 クローリングが0のURLを見つけた場合でも(robots.txtによるブロックや無効な開始URLのため)、クローリングステータスはcompletedになります。結果を確認するにはpages_countフィールドをチェックしてください。

リトリーブパターン

多くのオブジェクトは後で取得できるコンテンツを生成します。retrieve_idパターンを使用すると、再処理せずにコンテンツを取得できます。
# retrieve_idを使用してコンテンツを取得
curl "https://api.olostep.com/v1/retrieve?retrieve_id=6h89o8u1kt" \
  -H "Authorization: Bearer <your_token>"
このパターンは以下で使用されます:
  • バッチアイテム — 処理された各URLにretrieve_idが付与されます
  • クローリングページ — クローリングされた各ページにretrieve_idが付与されます
/v1/retrieveエンドポイントは、返すコンテンツタイプを指定するためのformatsパラメータを受け付けます(htmlmarkdownjsontext)。

Webhooks: イベント駆動の更新

ステータスの変更をポーリングする代わりに、オブジェクトの状態が変わったときにイベントを受け取るようにwebhooksを設定します。
{
  "event": "batch.completed",
  "data": {
    "id": "batch_xyz789",
    "status": "completed",
    "items_total": 100,
    "items_completed": 100
  }
}

メタデータ: あなたのデータを私たちのデータと一緒に

メタデータを使用してオブジェクトにカスタムのキーと値のペアを添付します。これにより、Olostepリソースを内部システムにリンクできます。
{
  "items": [{"url": "https://example.com"}],
  "metadata": {
    "order_id": "12345",
    "customer": "acme-corp"
  }
}

まとめ

概念説明
オブジェクトすべてのリソースはユニークなIDを持ち、クエリ可能です
ライフサイクルstatusフィールドを通じて進捗を追跡
リトリーブretrieve_idで後でコンテンツを取得
Webhooks状態が変わったときに通知を受け取る
メタデータ任意のオブジェクトに独自のデータを添付