Model AI & API May 13 github.com

Needle: Model AI 26M Parameter untuk Function Calling

Judul asli: Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model

Mengapa Ini Penting

Model function calling ultra-ringan ini memungkinkan AI tools berjalan efisien di edge devices.

Cactus Compute merilis Needle, model AI 26 juta parameter yang mampu melakukan tool calling dengan kecepatan 6000 token/detik prefill dan 1200 token/detik decode. Model ini didistilasi dari Gemini 3.1.

Needle adalah model Simple Attention Network berukuran 26 juta parameter yang dikembangkan Cactus Compute melalui distilasi dari Gemini 3.1. Model ini dapat melakukan function calling dan berjalan dengan performa tinggi mencapai 6000 token/detik untuk prefill dan 1200 token/detik untuk decode. Arsitektur model menggunakan d=512, 8H/4KV, dan BPE=8192 dengan 8 decoder layer dan 12 encoder layer. Bobot model dan dataset generation tersedia secara open source di repository Cactus-Compute/needle. Model dapat dijalankan dan di-finetune secara lokal pada Mac/PC, menjadikannya solusi function calling yang efisien untuk perangkat dengan resource terbatas.

Sumber

github.com — Baca artikel asli →

Needle: Model AI 26M Parameter untuk Function Calling

Mengapa Ini Penting

Sumber

Artikel terkait

Masuk untuk mendengarkan