Riset & Makalah Apr 27 openai.com

OpenAI Hentikan Evaluasi SWE-bench Verified untuk Model AI

Judul asli: SWE-bench Verified no longer measures frontier coding capabilities

Mengapa Ini Penting

Menunjukkan pentingnya benchmark yang tidak terkontaminasi untuk evaluasi AI coding

OpenAI mengumumkan penghentian penggunaan SWE-bench Verified sebagai benchmark kemampuan coding AI karena kontaminasi data training dan tes cacat yang menolak solusi benar pada 59,4% kasus yang diaudit.

OpenAI menyatakan SWE-bench Verified tidak lagi cocok mengukur kemampuan software engineering AI karena dua masalah utama. Pertama, audit pada 27,6% dataset menunjukkan 59,4% masalah memiliki test case cacat yang menolak solusi fungsional benar. Kedua, semua model frontier yang diuji mampu mereproduksi patch asli atau detail spesifik masalah, menunjukkan kontaminasi data training. Progress benchmark melambat dari 74,9% ke 80,9% dalam 6 bulan terakhir. OpenAI merekomendasikan penggunaan SWE-bench Pro sebagai alternatif hingga evaluasi baru tersedia.

Sumber

openai.com — Baca artikel asli →

OpenAI Hentikan Evaluasi SWE-bench Verified untuk Model AI

Mengapa Ini Penting

Sumber

Artikel terkait

Masuk untuk mendengarkan