OpenAI ने SWE-bench Verified को छोड़ा

मूल शीर्षक: SWE-bench Verified no longer measures frontier coding capabilities

यह क्यों महत्वपूर्ण है

यह AI model evaluation में contamination की गंभीर समस्या को दर्शाता है जो industry benchmarks की विश्वसनीयता को प्रभावित करती है।

OpenAI ने घोषणा की कि वह अब SWE-bench Verified बेंचमार्क का उपयोग नहीं करेगा क्योंकि यह frontier कोडिंग क्षमताओं को सही तरीके से नहीं मापता। कंपनी ने दो मुख्य समस्याएं बताईं: गलत टेस्ट केसेस और training contamination।

OpenAI ने फरवरी 2026 में एक रिसर्च पब्लिकेशन में बताया कि SWE-bench Verified बेंचमार्क अब frontier मॉडल्स की कोडिंग क्षमताओं को मापने के लिए उपयुक्त नहीं है। अगस्त 2024 में लॉन्च के बाद से यह industry standard बन गया था। OpenAI के विश्लेषण में दो बड़ी समस्याएं मिलीं: पहली, dataset के 27.6% हिस्से की जांच में पाया गया कि 59.4% समस्याओं में flawed test cases हैं जो सही solutions को भी reject कर देते हैं। दूसरी, सभी frontier models ने original human-written bug fixes या problem statements को verbatim reproduce किया, जो training contamination का प्रमाण है। पिछले 6 महीनों में progress केवल 74.9% से 80.9% तक सीमित रही। OpenAI का कहना है कि अब SWE-bench Verified पर सुधार वास्तविक software development abilities में सुधार को नहीं बल्कि training exposure को दर्शाता है। कंपनी ने इसके बजाय SWE-bench Pro का उपयोग करने की सिफारिश की है।

स्रोत

openai.com — मूल लेख पढ़ें →