Kog AI Capai 3.000 Token/Detik untuk Inferensi LLM Real-Time

Judul asli: Real-time LLM Inference on Standard GPUs: 3k tokens/s per request

Mengapa Ini Penting

Terobosan kecepatan inferensi ini dapat mempercepat aplikasi AI agent secara signifikan

Kog AI meluncurkan Kog Inference Engine yang mencapai 3.000 token output per detik pada 8× AMD MI300X GPU dan 2.100 pada 8× NVIDIA H200. Engine ini mengoptimalkan kecepatan decode per request untuk aplikasi AI agent.

Kog AI memperkenalkan tech preview Kog Inference Engine (KIE) yang mencapai kecepatan inferensi LLM real-time dengan 3.000 output token/detik per request pada 8× AMD MI300X GPU dan 2.100 pada 8× NVIDIA H200 menggunakan format FP16 tanpa speculative decoding. Preview ini menjalankan model 2B dengan dukungan model MoE pihak ketiga berukuran besar yang akan datang dengan kecepatan serupa. Perusahaan menjelaskan bahwa optimasi kecepatan decode per request sangat penting untuk AI agent yang beroperasi dalam loop sequential seperti inspect, plan, edit, test, dan revise. Pada batch size 1, decode autoregressive didominasi oleh matrix-vector work dimana semua weight aktif model harus bergerak melalui hierarki memori GPU. Kog menyatakan bahwa faktor pembatas utama adalah software stack inferensi yang tidak dioptimalkan untuk workload ini, bukan keterbatasan hardware GPU datacenter standar.

Sumber

blog.kog.ai — Baca artikel asli →