OpenAI abandonne SWE-bench Verified pour contamination
Original : SWE-bench Verified no longer measures frontier coding capabilities
Pourquoi c'est important
Remet en question la fiabilité des benchmarks d'évaluation IA actuels
OpenAI cesse d'utiliser SWE-bench Verified pour évaluer les capacités de codage des modèles IA, citant une contamination des données d'entraînement et des tests défaillants dans 59,4% des cas audités.
OpenAI annonce l'abandon de SWE-bench Verified, benchmark largement utilisé depuis août 2024 pour mesurer les capacités d'ingénierie logicielle autonome des modèles IA. Après une progression initiale rapide, les améliorations ont stagné de 74,9% à 80,9% en 6 mois. L'analyse révèle deux problèmes majeurs : 59,4% des problèmes audités ont des tests défaillants rejetant des solutions correctes, et tous les modèles frontière testés reproduisent les corrections originales, indiquant une contamination des données d'entraînement. Les dépôts open-source utilisés dans SWE-bench sont présents dans les données d'entraînement des modèles, compromettant la validité des évaluations. OpenAI recommande désormais SWE-bench Pro et développe de nouveaux benchmarks non contaminés.