VibeThinker-3B: Model 3B Parameter Kalahkan Opus 4.5
Judul asli: VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO
Mengapa Ini Penting
Menunjukkan model kecil dapat mencapai kinerja penalaran tingkat frontier, membuka peluang pengembangan sistem AI yang efisien dan dapat diakses.
VibeThinker-3B, model bahasa dengan 3 miliar parameter, mencapai kinerja penalaran terverifikasi setara dengan sistem flagship yang jauh lebih besar seperti DeepSeek V3.2 dan Gemini 3 Pro melalui teknik SFT dan GRPO.
Para peneliti memperkenalkan VibeThinker-3B, model padat dengan 3 miliar parameter yang dirancang untuk menyelidiki batas-batas penalaran terverifikasi dalam rezim model kecil. Model ini dibangun berdasarkan paradigma post-training Spectrum-to-Signal dengan pipeline optimasi yang mencakup fine-tuning terbimbing berbasis kurikulum, pembelajaran penguatan multi-domain, dan distilasi diri offline.
Hasil evaluasi menunjukkan VibeThinker-3B mencapai kinerja tingkat frontier pada tugas-tugas terverifikasi yang sangat menantang: skor 94,3 pada AIME26 (meningkat menjadi 97,1 dengan claim-level test-time scaling), Pass@1 80,2 pada LiveCodeBench v6, dan tingkat penerimaan 96,1% pada kompetisi LeetCode yang belum pernah dilihat sebelumnya. Model ini secara efektif menempatkan dirinya dalam band kinerja sistem penalaran tier-pertama, sebanding atau melampaui model flagship yang beberapa urutan magnitude lebih besar.
Skor 93,4 pada IFEval mengkonfirmasi bahwa peningkatan penalaran ekstrem ini tidak mengorbankan kemampuan kontrol instruksi yang ketat. Temuan ini memotivasi Parametric Compression-Coverage Hypothesis, yang memandang penalaran terverifikasi sebagai dapat dikompres ke dalam inti penalaran kompak, sementara pengetahuan domain-terbuka memerlukan cakupan parameter luas.