OpenAI、SWE-bench Verifiedの評価使用停止を発表

原題: SWE-bench Verified no longer measures frontier coding capabilities

なぜ重要か

AI能力測定の信頼性確保は業界全体の技術進歩評価に不可欠で、新しい評価基準の確立が急務となっている

OpenAIは2月23日、AI開発能力測定ベンチマークSWE-bench Verifiedの使用停止を発表した。テストケースの不備と訓練データ汚染により、真の能力向上を測定できなくなったためで、代替としてSWE-bench Proを推奨している。

OpenAIは、2024年8月に公開したコーディング能力測定ベンチマークSWE-bench Verifiedの使用を停止すると発表した。同ベンチマークは業界標準として広く採用され、自動ソフトウェア工学タスクにおけるAIモデルの進歩を測定してきた。過去6ヶ月で最先端モデルの成績は74.9%から80.9%に向上したが、進歩が鈍化していた。OpenAIが分析した結果、2つの重大な問題が発見された。第一に、データセットの27.6%を監査した結果、59.4%以上の問題で機能的に正しい解答を拒否する欠陥のあるテストケースが存在することが判明した。第二に、大規模言語モデルが訓練時にベンチマークの問題と解答を学習していることが明らかになった。全ての最先端モデルが元の人間が書いたバグ修正や問題文の詳細を再現できることが確認され、訓練時にこれらの情報を見ていることを示している。これにより、SWE-bench Verifiedでの改善は実際のソフトウェア開発能力の向上ではなく、訓練時のベンチマーク露出度を反映するようになった。OpenAIは他の開発者にもこのベンチマークの使用停止を推奨し、汚染されていない新しい評価手法の構築に取り組んでいる。

出典

openai.com — 元記事を読む →