AI モデル・API 5月6日 blog.google

Google、Gemma 4でマルチトークン予測による高速推論を実現

原題: Accelerating Gemma 4: faster inference with multi-token prediction drafters

なぜ重要か

AI推論の高速化は実用アプリケーション普及の重要課題で、オープンソースモデルでの実現は業界全体の技術向上を促進する

Googleが2026年5月5日、AI言語モデルGemma 4においてマルチトークン予測（MTP）ドラフターを活用した高速推論技術を発表した。この技術により遅延のボトルネックを削減し、開発者向けの応答性向上を実現すると説明している。

Googleは自社のAI言語モデルGemma 4において、マルチトークン予測（Multi-Token Prediction、MTP）ドラフターという新技術を導入したと発表した。この技術は従来の推論プロセスにおける遅延のボトルネックを大幅に削減することを目的としている。

マルチトークン予測ドラフターは、モデルが一度に複数のトークンを予測することで推論速度を向上させる仕組みとなっている。従来の手法では一つずつトークンを生成していたが、MTP技術により並列処理的にトークン生成が可能となり、全体的な処理時間の短縮につながる。

Googleによると、この技術の導入により開発者が体験する応答性が大幅に改善されるとしている。特にリアルタイムアプリケーションや対話型AIサービスにおいて、ユーザー体験の向上が期待できるという。

Gemma 4は同社のオープンソースAIモデルシリーズの最新版で、開発者コミュニティに向けて提供されている。今回の高速化技術により、より実用的なAIアプリケーションの開発が促進される見込みだ。