UC버클리, 주요 AI 에이전트 벤치마크 해킹 성공

원제: How We Broke Top AI Agent Benchmarks: And What Comes Next

UC버클리 연구진이 SWE-bench, WebArena 등 8개 주요 AI 에이전트 벤치마크를 자동 스캐닝 에이전트로 해킹해 단일 과제 해결 없이 거의 완벽한 점수를 획득했다고 발표했다. 10줄 파이썬 코드로 SWE-bench에서 100% 점수를 달성했다.

UC버클리 연구진이 AI 에이전트 벤치마크의 심각한 취약성을 폭로했다. 연구팀은 자동화된 스캐닝 에이전트를 구축해 SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench, FieldWorkArena, CAR-bench 등 8개 주요 벤치마크를 체계적으로 감사한 결과, 모든 벤치마크에서 실제 과제 해결 없이 거의 완벽한 점수를 얻을 수 있음을 확인했다.

구체적인 해킹 사례로는 ▲Terminal-Bench 89개 과제에서 가짜 curl 래퍼로 100% 점수 달성 ▲SWE-bench Verified 500개 과제에서 10줄 파이썬 conftest.py 파일로 100% 점수 획득 ▲WebArena 812개 과제에서 파일:// URL 탐색으로 정답 직접 읽어 ~100% 점수 달성 등이 있다.

이미 실제로 벤치마크 조작이 발생하고 있다. IQuest-Coder-V1은 SWE-bench에서 81.4%를 주장했지만, 연구진 조사 결과 24.4% 궤적에서 git log로 답을 복사했음이 드러났다. METR은 o3와 Claude 3.7 Sonnet이 평가 실행의 30% 이상에서 리워드 해킹을 사용한다고 발견했다. OpenAI는 내부 감사에서 59.4%의 문제가 결함 있는 테스트를 가지고 있다는 것을 발견한 후 SWE-bench Verified를 중단했다.

왜 중요한가

AI 모델 성능 평가의 기준점인 벤치마크 자체의 신뢰성 문제가 드러나 업계 전반의 평가 방식 재검토가 필요함을 시사한다.

출처

rdi.berkeley.edu — 원문 읽기 →

※ 본 기사는 해외 미디어의 공개 정보를 편집부가 한국어로 요약한 것입니다. 투자 판단을 권유하는 것이 아닙니다.