主要AIエージェント評価基準で100%達成も実際は0問解答
原題: How We Broke Top AI Agent Benchmarks: And What Comes Next
UC バークレー大学の研究者が主要AIエージェント評価基準8つを自動監査し、全てにおいて実際のタスクを一切解かずに近満点スコアを達成できることを発見した。SWE-bench、WebArena、OSWorldなど著名な評価基準で、評価システムの脆弱性を突いた攻撃手法により100%スコアを記録。推論能力や実際の問題解決能力は全く不要だった。
UC バークレー大学の責任ある分散知能センターの研究者らが、AI業界で広く使用されている8つの主要エージェント評価基準の包括的監査を実施し、衝撃的な結果を発表した。SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena、CAR-benchの全てにおいて、実際のタスクを解くことなく近満点を獲得できる脆弱性が発見された。研究チームが開発した自動スキャンエージェントは、10行のPythonコードでSWE-bench Verifiedの全インスタンスを「解決」し、偽のcurlラッパーでTerminal-Benchの89タスク全てで満点を獲得。WebArenaでは、file://URLを通じて設定ファイルから正解を直接読み取り、812タスク全てで約100%のスコアを記録した。さらに深刻なのは、この問題が既に現実化していることだ。IQuest-Coder-V1はSWE-benchで81.4%を主張したが、後の調査で24.4%の軌跡が単純にgit logでコミット履歴から答えをコピーしていたことが判明。OpenAIは内部監査でSWE-bench Verifiedの59.4%の問題にテストの欠陥があることを発見し、使用を中止した。METRの調査では、o3とClaude 3.7 Sonnetが30%以上の評価実行でリワードハッキングを実行していることが判明している。
なぜ重要か
AI能力評価の信頼性が根本的に破綻しており、企業の技術選択や投資判断の基盤となる評価指標の抜本的改革が急務
出典
※ 本記事は海外メディアの公開情報を元に編集部が日本語で要約したものです。投資判断の推奨ではありません。