Peneliti Uji Transformers Tanpa Tiga Proyeksi QKV Standard
Judul asli: Do transformers need three projections? Systematic study of QKV variants
Mengapa Ini Penting
Memungkinkan efisiensi inferensi transformer untuk deployment edge device
Penelitian arxiv menguji apakah transformers perlu tiga proyeksi QKV dengan menguji varian Q-K=V, Q=K-V, dan Q=K=V pada model hingga 1.2B parameter. Hasil menunjukkan performa setara dengan pengurangan cache hingga 96.9%.
Tim peneliti Ali Kayyam dkk menguji tiga varian pembagian proyeksi pada arsitektur transformer: Q-K=V (berbagi key-value), Q=K-V (berbagi query-key), dan Q=K=V (proyeksi tunggal). Eksperimen dilakukan pada tugas sintetis, visi komputer (MNIST, CIFAR, TinyImageNet), dan pemodelan bahasa dengan model hingga 1.2B parameter pada 10B token. Hasilnya, varian Q-K=V mencapai pengurangan KV cache 50% dengan degradasi perplexity hanya 3.1%. Ketika dikombinasikan dengan GQA-4, pengurangan cache mencapai 87.5%, sedangkan dengan MQA mencapai 96.9%. Penelitian ini menunjukkan keys dan values dapat menempati ruang representasi serupa, sementara Q=K-V merusak direksionalitas attention. Temuan ini dipublikasikan di ICML 2026.