Modèles & API IA May 13 github.com

Needle : Distillation de Gemini en modèle de 26M paramètres

Original : Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model

Pourquoi c'est important

Démocratise l'accès aux capacités d'IA avancées sur appareils contraints

Cactus Compute a créé Needle, un modèle de 26 millions de paramètres qui distille les capacités d'appel d'outils de Gemini 3.1 dans une architecture Simple Attention Network. Le modèle fonctionne à 6000 tokens/sec.

Needle est un modèle open-source de 26 millions de paramètres développé par Cactus Compute qui distille les capacités d'appel d'outils (function calling) de Gemini 3.1. L'architecture utilise un Simple Attention Network avec d=512, 8 têtes d'attention, 4KV et un BPE de 8192. En production sur la plateforme Cactus, le modèle atteint 6000 tokens/sec en prefill et 1200 en décodage. Les poids du modèle sont entièrement ouverts et disponibles sur Cactus-Compute/needle, ainsi que la génération du dataset. L'architecture comprend 8 décodeurs avec ZCRMSNorm, attention masquée auto-attentive avec RoPE et résidus gated, plus 12 encodeurs.

Source

github.com — Lire l'original →

Needle : Distillation de Gemini en modèle de 26M paramètres

Pourquoi c'est important

Source

Articles connexes

Connectez-vous pour écouter