26万パラメータのGemini Tool Calling蒸留モデル「Needle」を公開

原題: Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model

なぜ重要か

大規模モデルの機能を超軽量化することで、エッジデバイスでの高度なAI機能実装に道筋を示した。

Cactus Computeは、Gemini 3.1のツール呼び出し機能を26万パラメータのSimple Attention Networkに蒸留した「Needle」をGitHubで公開した。Mac/PCでのローカル微調整が可能で、本番環境では6000トークン/秒の前処理速度と1200トークン/秒のデコード速度を実現している。

Cactus ComputeがGitHub上で「Needle」と呼ばれる超軽量な言語モデルを公開した。このモデルは、Googleの大規模言語モデルGemini 3.1のツール呼び出し機能を、わずか26万パラメータのSimple Attention Networkに知識蒸留によって圧縮したものである。

Needleの特徴は、512次元の埋め込み、8つのヘッド(4つのKVヘッド)、8192のBPE(Byte Pair Encoding)を採用していることだ。アーキテクチャは8つのデコーダーと12のエンコーダーで構成され、ZCRMSNorm、Masked Self Attention、RoPE、Gated Residualなどの現代的な手法を組み込んでいる。

実用性の面では、Mac/PCでのローカル環境での微調整が可能で、本番環境のCactusプラットフォームでは前処理速度6000トークン/秒、デコード速度1200トークン/秒という高速な処理性能を達成している。

モデルの重みは完全にオープンソースとして公開されており、データセット生成に関する情報も含まれている。このプロジェクトはMITライセンスの下で提供され、既に641のスターと26のフォークを獲得している。

出典

github.com — 元記事を読む →