VibeThinker-3B, 소형 언어모델로 Opus 4.5 능가

원제: VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO

왜 중요한가

소형언어모델이 대형모델 수준의 추론성능을 달성함으로써 모델 크기-성능 관계에 대한 기존 가정을 재평가하게 하며, 에지 배포·비용효율성 측면에서 산업 영향이 클 것으로 예상된다.

파라미터 30억 개 규모의 소형 언어모델 VibeThinker-3B가 AIME26에서 94.3점(테스트타임 스케일링 시 97.1점)을 달성해 대형모델 능력을 초과했다. SFT와 GRPO 기반 학습 파이프라인을 통해 검증 가능한 추론 능력을 극대화했다.

VibeThinker-3B는 센 쉬 외 9명의 연구진이 개발한 30억 파라미터 소형 언어모델이다. Spectrum-to-Signal 사후학습 패러다임을 바탕으로 커리큘럼 기반 감독학습(SFT), 다중 영역 강화학습, 오프라인 자기증류 기법을 통합한 최적화 파이프라인을 구축했다.

벤치마크 성과는 다음과 같다. AIME26(수학 문제)에서 94.3점, 테스트타임 스케일링 적용 시 97.1점을 기록했다. 코딩 벤치마크 LiveCodeBench v6에서는 Pass@1 기준 80.2를 달성했고, 미공개 LeetCode 문제에서는 96.1% 수용률을 보여 분포 외 일반화 능력이 우수했다. 이는 DeepSeek V3.2, GLM-5, Gemini 3 Pro 같은 대규모 모델들과 동등하거나 우월한 수준이다. 명령어 준수도 IFEval에서 93.4점으로 높아 추론 능력 강화가 지시 제어성을 손상시키지 않음을 입증했다.

연구진은 '매개변수 압축-범위 가설'을 제시했다. 검증 가능한 추론은 컴팩트한 추론 핵심에 압축 가능하며, 일반 지식과 목적 능력은 광범위한 사실·개념·긴꼬리 시나리오 커버를 위해 파라미터 폭이 필요하다는 관점이다. 이는 소형모델이 단순한 배포용 대체재가 아니라 최첨단 성능의 상호보완적 경로임을 시사한다.

출처

arxiv.org — 원문 읽기 →