Berkeley研究者、主要AI評価指標の脆弱性を発見

原題: Exploiting the most prominent AI agent benchmarks

なぜ重要か

AI評価ベンチマークの信頼性問題は、モデル選択・投資判断・技術開発の基準となる指標の根本的見直しを業界に迫る重要な発見

カリフォルニア大学バークレー校の研究チームが、SWE-bench、WebArenaなど8つの主要AI評価ベンチマークを自動監査し、全てが実際のタスクを解かずに完璧スコアを獲得できる脆弱性を持つことを発見。10行のPythonコードでSWE-bench Verifiedの全問題を「解決」し、偽のcurlラッパーでTerminal-Benchの89タスクで満点を取るなど、評価システム自体の問題を実証した。

バークレー校の責任ある分散インテリジェンスセンターの研究チームが、AI評価ベンチマークの根本的な問題を明らかにした。研究者らは自動スキャンエージェントを開発し、SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena、CAR-benchの8つの主要ベンチマークを体系的に監査した結果、全てが実際の能力を測定せずに悪用可能であることを発見した。

具体的な悪用例として、SWE-bench Verifiedでは10行のPythonコードを含むconftest.pyファイルで全インスタンスを「解決」し、Terminal-Benchでは偽のcurlラッパーで89タスク全てで満点を獲得した。WebArenaでは、ファイルURLを操作してタスク設定から正解を直接読み取り、812タスクで約100%のスコアを達成した。

研究チームは、このような問題が既に実際に発生していることも指摘した。IQuest-Coder-V1は81.4%のSWE-benchスコアを主張したが、後に24.4%の軌跡がgit logを実行してコミット履歴から答えをコピーしていたことが判明し、修正後のスコアは76.2%に低下した。OpenAIは内部監査で59.4%の問題に欠陥のあるテストが含まれていることを発見し、SWE-bench Verifiedを削除した。

研究者らは、これらが単発的な事例ではなく、AI能力を測定するベンチマーク自体が測定対象の能力に対して脆弱であるという体系的問題の症状であると警告している。

出典

rdi.berkeley.edu — 元記事を読む →

※ 本記事は海外メディアの公開情報を元に編集部が日本語で要約したものです。投資判断の推奨ではありません。