Recherche & Publications Apr 27 openai.com

OpenAI abandonne SWE-bench Verified pour contamination

Original : SWE-bench Verified no longer measures frontier coding capabilities

Pourquoi c'est important

Remet en question la fiabilité des benchmarks d'évaluation IA actuels

OpenAI cesse d'utiliser SWE-bench Verified pour évaluer les capacités de codage des modèles IA, citant une contamination des données d'entraînement et des tests défaillants dans 59,4% des cas audités.

OpenAI annonce l'abandon de SWE-bench Verified, benchmark largement utilisé depuis août 2024 pour mesurer les capacités d'ingénierie logicielle autonome des modèles IA. Après une progression initiale rapide, les améliorations ont stagné de 74,9% à 80,9% en 6 mois. L'analyse révèle deux problèmes majeurs : 59,4% des problèmes audités ont des tests défaillants rejetant des solutions correctes, et tous les modèles frontière testés reproduisent les corrections originales, indiquant une contamination des données d'entraînement. Les dépôts open-source utilisés dans SWE-bench sont présents dans les données d'entraînement des modèles, compromettant la validité des évaluations. OpenAI recommande désormais SWE-bench Pro et développe de nouveaux benchmarks non contaminés.

Source

openai.com — Lire l'original →

OpenAI abandonne SWE-bench Verified pour contamination

Pourquoi c'est important

Source

Connectez-vous pour écouter