Gemma 4 dipercepat dengan multi-token prediction drafters

Judul asli: Accelerating Gemma 4: faster inference with multi-token prediction drafters

Mengapa Ini Penting

Peningkatan kecepatan inferensi Gemma 4 dapat meningkatkan adopsi AI enterprise

Google meluncurkan teknologi Multi-Token Prediction (MTP) drafters untuk model Gemma 4 yang mengurangi latensi dan meningkatkan responsivitas untuk pengembang pada 5 Mei 2026.

Google mengumumkan peningkatan performa Gemma 4 melalui implementasi Multi-Token Prediction (MTP) drafters. Teknologi ini dirancang untuk mengurangi bottleneck latensi dan meningkatkan responsivitas model AI untuk para pengembang. MTP drafters memungkinkan prediksi beberapa token sekaligus, berbeda dari pendekatan konvensional yang memprediksi satu token per waktu. Inovasi ini merupakan bagian dari upaya Google untuk mengoptimalkan kecepatan inferensi pada model bahasa besar, yang menjadi faktor kritis dalam aplikasi AI real-time.

Sumber

blog.google — Baca artikel asli →