Needle: 26M पैरामीटर का छोटा AI मॉडल लॉन्च
मूल शीर्षक: Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model
यह क्यों महत्वपूर्ण है
छोटे devices पर efficient AI inference की दिशा में महत्वपूर्ण प्रगति
Cactus Compute ने Gemini 3.1 को distill करके 26 मिलियन पैरामीटर का Needle मॉडल विकसित किया है। यह tool calling में विशेषज्ञ है और Mac/PC पर train हो सकता है। मॉडल के weights GitHub पर खुले रूप से उपलब्ध हैं।
Needle एक compact AI मॉडल है जो Gemini 3.1 से distilled है और केवल 26 मिलियन पैरामीटर्स का है। यह Simple Attention Network architecture का उपयोग करता है। मॉडल की विशेषताओं में d=512, 8H/4KV, और BPE=8192 शामिल हैं। इसमें 8 decoder layers और 12 encoder layers हैं, साथ ही ZCRMSNorm और Gated Residual components भी हैं। Needle का production में Cactus पर performance 6000 tokens/second prefill और 1200 decode speed है। मॉडल के weights Cactus-Compute/needle पर पूरी तरह से open source के रूप में उपलब्ध हैं, साथ ही dataset generation भी। यह विशेष रूप से tool calling applications के लिए optimized है।