Needle: Model AI 26M Parameter untuk Function Calling
Judul asli: Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model
Mengapa Ini Penting
Model function calling ultra-ringan ini memungkinkan AI tools berjalan efisien di edge devices.
Cactus Compute merilis Needle, model AI 26 juta parameter yang mampu melakukan tool calling dengan kecepatan 6000 token/detik prefill dan 1200 token/detik decode. Model ini didistilasi dari Gemini 3.1.
Needle adalah model Simple Attention Network berukuran 26 juta parameter yang dikembangkan Cactus Compute melalui distilasi dari Gemini 3.1. Model ini dapat melakukan function calling dan berjalan dengan performa tinggi mencapai 6000 token/detik untuk prefill dan 1200 token/detik untuk decode. Arsitektur model menggunakan d=512, 8H/4KV, dan BPE=8192 dengan 8 decoder layer dan 12 encoder layer. Bobot model dan dataset generation tersedia secara open source di repository Cactus-Compute/needle. Model dapat dijalankan dan di-finetune secara lokal pada Mac/PC, menjadikannya solusi function calling yang efisien untuk perangkat dengan resource terbatas.