標準GPU上でLLM推論が3000トークン/秒実現

原題: Real-time LLM Inference on Standard GPUs: 3k tokens/s per request

なぜ重要か

AIエージェント時代において単一リクエスト処理速度が重要指標となり、専用ハードウェア並みの性能を標準GPUで実現する技術革新。

Kog AIが標準データセンター用GPUでリアルタイムLLM推論エンジンの技術プレビューを発表。AMD MI300X 8基で毎秒3000トークン、NVIDIA H200 8基で毎秒2100トークンの出力速度を実現。現在2Bモデルで動作し、大型MoEモデル対応も予定。

Kog AIが発表したKog Inference Engine(KIE)は、標準的なデータセンター用GPUで従来の推論スタックの限界を突破する性能を実現した。AMD MI300X 8基構成で毎秒3000トークン、NVIDIA H200 8基構成で毎秒2100トークンの出力速度を達成している。これはFP16精度で投機的デコーディングなしの結果だ。

同社は現在2Bパラメータのコーディングモデルで技術実証を行っており、今後大型のMoE(Mixture of Experts)モデルでも同等の速度を目指している。公開されているプレイグラウンドでユーザーが実際の性能をテストできる。

Kog AIは単一リクエストでのデコード速度が重要になる理由として、AIエージェントのワークフローを挙げている。自律的なソフトウェア開発エージェントは検査、計画、編集、テスト、修正の連続的なループを実行するため、各ステップの処理速度がボトルネックとなる。5万トークンを生成するワークフローでは、100トークン/秒なら約8分、3000トークン/秒なら20秒未満で完了する。

技術的には、バッチサイズ1での自己回帰デコーディングはメモリ帯域幅が主要なボトルネックとなる。各トークン生成でモデルの全重みがGPUのメモリ階層を移動する必要があり、これが制約要因となっている。同社は既存の推論ソフトウェアスタックがこの種のワークロードに最適化されていないことが限界要因だと指摘している。

出典

blog.kog.ai — 元記事を読む →