GPU पर LLM की 3000 टोकन/सेकंड गति प्राप्त
मूल शीर्षक: Real-time LLM Inference on Standard GPUs: 3k tokens/s per request
यह क्यों महत्वपूर्ण है
GPU-आधारित तेज़ AI inference proprietary silicon के विकल्प प्रदान करता है।
Kog AI ने अपने KIE इंजन का तकनीकी पूर्वावलोकन लॉन्च किया है। AMD MI300X GPUs पर 3000 टोकन/सेकंड और NVIDIA H200 पर 2100 टोकन/सेकंड की गति प्राप्त की गई है। वर्तमान में 2B मॉडल का समर्थन है।
Kog AI ने Kog Inference Engine (KIE) का तकनीकी पूर्वावलोकन जारी किया है जो मानक डेटासेंटर GPUs पर अत्यधिक तेज़ LLM inference प्रदान करता है। 8× AMD MI300X GPUs पर 3000 आउटपुट टोकन/सेकंड प्रति अनुरोध और 8× NVIDIA H200 पर 2100 टोकन/सेकंड की गति हासिल की गई है। यह FP16 precision में speculative decoding के बिना प्राप्त किया गया है। वर्तमान में यह 2B मॉडल का समर्थन करता है, जबकि बड़े third-party MoE मॉडल का समर्थन समान गति के साथ आगामी है। कंपनी का दावा है कि AI inference में single-request decode speed अब प्रमुख मेट्रिक है, विशेषकर AI agents के लिए जो sequential workflows में काम करते हैं। Memory bandwidth को अधिकतम करना प्राथमिक चुनौती है। मानक datacenter GPU hardware में वर्तमान inference stacks की तुलना में बहुत अधिक decoding-speed क्षमता है।