OpenAI, SWE-bench Verified 평가 중단 발표

원제: SWE-bench Verified no longer measures frontier coding capabilities

왜 중요한가

AI 코딩 능력 평가의 신뢰성 확보가 모델 발전과 상용화에 핵심적 요소임을 보여준다.

OpenAI가 AI 모델의 코딩 능력 평가 벤치마크인 SWE-bench Verified 사용을 중단한다고 2월 23일 발표했다. 테스트 케이스의 결함과 훈련 데이터 오염 문제로 인해 더 이상 실제 소프트웨어 개발 능력을 정확히 측정할 수 없다고 판단했다.

OpenAI는 2024년 8월 출시한 SWE-bench Verified가 더 이상 최첨단 AI 모델의 자율 소프트웨어 엔지니어링 능력을 제대로 측정하지 못한다며 평가 중단을 발표했다. 이 벤치마크는 업계에서 모델 진전을 측정하는 표준 지표로 사용되어 왔지만, 최근 6개월간 성능 개선이 74.9%에서 80.9%로 둔화되면서 문제가 드러났다.

OpenAI가 발견한 주요 문제는 두 가지다. 첫째, 데이터셋의 27.6%를 감사한 결과 59.4% 이상에서 올바른 해답을 거부하는 결함 있는 테스트 케이스가 발견됐다. 둘째, 최첨단 모델들이 원본 인간 작성 버그 수정이나 문제 설명을 정확히 재현할 수 있어 훈련 과정에서 벤치마크 문제와 해답을 미리 학습했음이 확인됐다.

이는 SWE-bench 문제들이 모델 제공업체들이 훈련에 사용하는 오픈소스 저장소에서 가져왔기 때문이다. 결과적으로 성능 향상이 실제 코딩 능력 개선보다는 훈련 시 벤치마크 노출 정도를 반영하게 됐다. OpenAI는 대안으로 SWE-bench Pro 사용을 권장하며, 오염되지 않은 새로운 평가 방법을 개발 중이라고 밝혔다.

출처

openai.com — 원문 읽기 →