コンピュータ使用はAPI比で45倍のコスト

原題: Computer Use is 45x more expensive than structured APIs

なぜ重要か

内部ツール自動化において、API開発コストと視覚エージェント運用コストの定量比較により最適なアプローチ選択が可能になる

Reflexが実施したベンチマークで、視覚エージェント(ブラウザ操作)による管理画面操作はAPI直接呼び出しと比べて45倍のコストがかかることが判明した。同じタスクで視覚エージェントは53ステップ・55万1千トークンを消費し、APIエージェントは8回呼び出し・1万2千トークンで完了した。

Reflexが行った検証では、AIエージェントが同一の管理画面を操作する2つの方法を比較した。テストアプリケーションは顧客、注文、レビューを管理する管理画面で、react-adminのPosters Galoreデモをベースとした。両エージェントは同じClaude Sonnet、同じデータセット、同じタスクを使用し、インターフェースのみが変数となった。タスクは「最も注文の多いSmithという顧客を見つけ、最新の保留中注文を特定し、保留中レビューをすべて承認して注文を配送済みにマーク」するもので、3つのリソース、フィルタリング、ページネーション、エンティティ間検索、読み書き操作を含む典型的な内部ツール業務だった。視覚エージェント(browser-use 0.12使用)はスクリーンショットとクリックでUI操作し、APIエージェントはアプリケーションのHTTPエンドポイントを直接呼び出した。結果として、視覚エージェントはタスクを完了できず、4つの保留中レビューのうち1つのみを処理してページネーションを行わなかった。一方、APIエージェントは8回の呼び出しでタスクを完了した。視覚エージェントが機能するためには、プロンプトの詳細化とページネーション指示の追加が必要だった。

出典

reflex.dev — 元記事を読む →