Kog AI atteint 3000 tokens/s en inférence LLM temps réel

Original : Real-time LLM Inference on Standard GPUs: 3k tokens/s per request

Pourquoi c'est important

Révolutionise la vitesse d'inférence IA pour les workflows agents autonomes

Kog AI lance un aperçu technique de son moteur d'inférence atteignant 3000 tokens/s par requête sur 8× AMD MI300X et 2100 sur 8× NVIDIA H200. La solution optimise la bande passante mémoire plutôt que les FLOPS pour les agents IA.

Kog AI présente le Kog Inference Engine (KIE) qui atteint 3000 tokens de sortie par seconde par requête sur 8× GPU AMD MI300X et 2100 sur 8× NVIDIA H200 (FP16, sans décodage spéculatif). Cette version préliminaire utilise un modèle de 2B paramètres, avec support des grands modèles MoE tiers à venir. L'entreprise explique que la vitesse de décodage par requête unique devient cruciale pour les agents IA autonomes qui fonctionnent en boucles séquentielles. Le défi principal est l'optimisation de la bande passante mémoire plutôt que les FLOPS, car le décodage autoregressif nécessite de déplacer tous les poids actifs du modèle à travers la hiérarchie mémoire du GPU. Un playground de test est disponible sur playground.kog.ai.

Source

blog.kog.ai — Lire l'original →