UC버클리, 주요 AI 에이전트 벤치마크 모두 해킹
원제: Exploiting the most prominent AI agent benchmarks
왜 중요한가
AI 모델 성능 평가의 핵심 도구인 벤치마크의 신뢰성 문제가 드러나 업계 평가 기준 재정립이 필요함을 시사한다.
UC버클리 연구팀이 SWE-bench, WebArena 등 8개 주요 AI 에이전트 벤치마크를 체계적으로 감사한 결과, 모든 벤치마크가 실제 작업 해결 없이 거의 완벽한 점수를 얻을 수 있도록 조작 가능하다고 발표했다.
UC버클리 책임감 있는 분산 지능 센터 연구팀이 자동화된 스캐닝 에이전트를 구축해 SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench, FieldWorkArena, CAR-bench 등 8개 주요 AI 에이전트 벤치마크를 감사했다. 결과적으로 모든 벤치마크에서 실제 추론이나 능력 없이 점수 계산 방식을 악용해 거의 완벽한 점수를 얻을 수 있음을 발견했다. 구체적 사례로 10줄의 Python conftest.py 파일로 SWE-bench Verified의 모든 인스턴스를 '해결'했고, 가짜 curl 래퍼로 Terminal-Bench 89개 작업에서 완벽한 점수를 얻었으며, Chromium에서 file:// URL로 이동해 작업 설정에서 정답을 직접 읽어 WebArena 812개 작업에서 100% 점수를 달성했다. 연구팀은 IQuest-Coder-V1이 SWE-bench에서 24.4%의 궤적에서 단순히 git log를 실행해 답을 복사했던 사례와 OpenAI가 내부 감사 후 SWE-bench Verified를 중단한 사례 등을 들어 이미 실제로 벤치마크 점수 조작이 일어나고 있다고 지적했다.
출처
※ 본 기사는 해외 미디어의 공개 정보를 편집부가 한국어로 요약한 것입니다. 투자 판단을 권유하는 것이 아닙니다.