VibeThinker-3B:小規模言語モデルで推論性能が大型モデル並

原題: VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO

なぜ重要か

小規模モデルが大型モデル並みの推論性能を実現できることを実証し、AIの民主化とエッジ計算での活用可能性を広げた。パラメータ効率とスケーラビリティに関する業界の認識を転換する重要な知見。

パラメータ数30億のコンパクト言語モデル「VibeThinker-3B」が、教師あり微調整と強化学習を組み合わせた新手法により、数百倍大きいモデル並みの推論性能を達成した。AIME26で94.3点、LiveCodeBench v6で80.2%の成功率を記録し、DeepSeek V3.2などの大型モデルと同等の性能を実現。

中国の研究チームが開発した「VibeThinker-3B」は、パラメータ数わずか30億の小規模言語モデルながら、数百億~数兆パラメータの大型モデルと競争できる推論能力を備えている。

技術的な特徴として、同モデルは「Spectrum-to-Signal」という事後学習パラダイムに基づき、カリキュラムベースの教師あり微調整(SFT)、複数領域での強化学習(GRPO)、オフライン自己蒸留を統合したパイプラインで強化されている。

評価結果では、AIME26(数学олимпиアド問題)で94.3点を獲得し、テスト時スケーリング適用時には97.1点に上昇。プログラミング問題セット「LiveCodeBench v6」では80.2%の成功率(Pass@1)を達成した。さらに未知のLeetCode問題に対して96.1%の受理率を示すなど、優れた汎化性能を実証している。

これらの成績は、DeepSeek V3.2、GLM-5、Gemini 3 Proといった大型フラッグシップモデルと同等かそれ以上の水準に相当する。一方、命令従従性を測るIFEvalで93.4点を獲得したことで、推論能力の強化が一般的な指示遵守性を損なわないことも確認された。

研究チームは「パラメータ圧縮-カバレッジ仮説」を提唱し、検証可能な推論はコンパクトな推論コアに圧縮可能である一方、汎用知識は事実や概念、長尾シナリオまで含む幅広いパラメータが必要だと結論付けた。これは小規模モデルが単なるデプロイメント効率の代替品ではなく、パラメータ密集型の最先端性能を目指す補完的なアプローチであることを示唆している。

出典

arxiv.org — 元記事を読む →