VibeThinker-3B : un modèle compact surpassant Opus 4.5
Original : VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO
Pourquoi c'est important
Démontre que les petits modèles compacts peuvent rivaliser avec les systèmes de raisonnement de première ligne, ouvrant de nouvelles perspectives pour l'IA efficace en ressources.
VibeThinker-3B, modèle de 3 milliards de paramètres, atteint des performances de raisonnement comparable aux grands modèles via une méthode SFT+GRPO innovante. Scores : 94,3 sur AIME26, 80,2 sur LiveCodeBench v6.
Des chercheurs ont développé VibeThinker-3B, un modèle dense compact à 3 milliards de paramètres conçu pour explorer les limites du raisonnement vérifiable dans les petits modèles. Utilisant le paradigme post-entraînement Spectrum-to-Signal, le modèle intègre un pipeline optimisé comprenant l'ajustement supervisé basé sur curriculum, l'apprentissage par renforcement multi-domaines et l'auto-distillation hors ligne. Les résultats montrent que VibeThinker-3B atteint des performances de niveau frontier sur des tâches exigeantes : 94,3 sur AIME26 (97,1 avec scaling au moment du test), 80,2 Pass@1 sur LiveCodeBench v6, et 96,1% d'acceptation sur des concours LeetCode récents non vus. Ces performances rivalisent ou surpassent des modèles phares beaucoup plus volumineux comme DeepSeek V3.2, GLM-5 et Gemini 3 Pro. Un score de 93,4 sur IFEval confirme que cette amélioration du raisonnement n'affecte pas la contrôlabilité des instructions. Les auteurs proposent l'hypothèse de Compression Paramétrique-Couverture, suggérant que le raisonnement vérifiable est compressible dans des cœurs compacts, tandis que les connaissances et la polyvalence nécessitent une couverture paramétrique large.