OpenAI Hentikan Evaluasi SWE-bench Verified untuk Model AI
Judul asli: SWE-bench Verified no longer measures frontier coding capabilities
Mengapa Ini Penting
Menunjukkan pentingnya benchmark yang tidak terkontaminasi untuk evaluasi AI coding
OpenAI mengumumkan penghentian penggunaan SWE-bench Verified sebagai benchmark kemampuan coding AI karena kontaminasi data training dan tes cacat yang menolak solusi benar pada 59,4% kasus yang diaudit.
OpenAI menyatakan SWE-bench Verified tidak lagi cocok mengukur kemampuan software engineering AI karena dua masalah utama. Pertama, audit pada 27,6% dataset menunjukkan 59,4% masalah memiliki test case cacat yang menolak solusi fungsional benar. Kedua, semua model frontier yang diuji mampu mereproduksi patch asli atau detail spesifik masalah, menunjukkan kontaminasi data training. Progress benchmark melambat dari 74,9% ke 80,9% dalam 6 bulan terakhir. OpenAI merekomendasikan penggunaan SWE-bench Pro sebagai alternatif hingga evaluasi baru tersedia.