Needle : Distillation de Gemini en modèle de 26M paramètres
Original : Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model
Pourquoi c'est important
Démocratise l'accès aux capacités d'IA avancées sur appareils contraints
Cactus Compute a créé Needle, un modèle de 26 millions de paramètres qui distille les capacités d'appel d'outils de Gemini 3.1 dans une architecture Simple Attention Network. Le modèle fonctionne à 6000 tokens/sec.
Needle est un modèle open-source de 26 millions de paramètres développé par Cactus Compute qui distille les capacités d'appel d'outils (function calling) de Gemini 3.1. L'architecture utilise un Simple Attention Network avec d=512, 8 têtes d'attention, 4KV et un BPE de 8192. En production sur la plateforme Cactus, le modèle atteint 6000 tokens/sec en prefill et 1200 en décodage. Les poids du modèle sont entièrement ouverts et disponibles sur Cactus-Compute/needle, ainsi que la génération du dataset. L'architecture comprend 8 décodeurs avec ZCRMSNorm, attention masquée auto-attentive avec RoPE et résidus gated, plus 12 encodeurs.