Peneliti Uji Transformers Tanpa Tiga Proyeksi QKV Standard

Judul asli: Do transformers need three projections? Systematic study of QKV variants

Mengapa Ini Penting

Memungkinkan efisiensi inferensi transformer untuk deployment edge device

Penelitian arxiv menguji apakah transformers perlu tiga proyeksi QKV dengan menguji varian Q-K=V, Q=K-V, dan Q=K=V pada model hingga 1.2B parameter. Hasil menunjukkan performa setara dengan pengurangan cache hingga 96.9%.

Tim peneliti Ali Kayyam dkk menguji tiga varian pembagian proyeksi pada arsitektur transformer: Q-K=V (berbagi key-value), Q=K-V (berbagi query-key), dan Q=K=V (proyeksi tunggal). Eksperimen dilakukan pada tugas sintetis, visi komputer (MNIST, CIFAR, TinyImageNet), dan pemodelan bahasa dengan model hingga 1.2B parameter pada 10B token. Hasilnya, varian Q-K=V mencapai pengurangan KV cache 50% dengan degradasi perplexity hanya 3.1%. Ketika dikombinasikan dengan GQA-4, pengurangan cache mencapai 87.5%, sedangkan dengan MQA mencapai 96.9%. Penelitian ini menunjukkan keys dan values dapat menempati ruang representasi serupa, sementara Q=K-V merusak direksionalitas attention. Temuan ini dipublikasikan di ICML 2026.

Sumber

arxiv.org — Baca artikel asli →