क्या ट्रांसफॉर्मर को तीन प्रोजेक्शन चाहिए? QKV वैरिएंट अध्ययन
मूल शीर्षक: Do transformers need three projections? Systematic study of QKV variants
यह क्यों महत्वपूर्ण है
edge deployment के लिए मेमोरी कुशल ट्रांसफॉर्मर डिजाइन में महत्वपूर्ण प्रगति।
शोधकर्ताओं ने ट्रांसफॉर्मर मॉडल में QKV attention के तीनों प्रोजेक्शन की आवश्यकता का व्यवस्थित अध्ययन किया। ICML 2026 में स्वीकृत इस पेपर में Q-K=V sharing से KV cache में 50% कमी और केवल 3.1% perplexity degradation देखी गई।
Ali Kayyam और सहयोगियों का यह शोध ट्रांसफॉर्मर आर्किटेक्चर में query, key, value प्रोजेक्शन की भूमिका की जांच करता है। तीन projection sharing constraints का परीक्षण किया गया: Q-K=V (shared key-value), Q=K-V (shared query-key), और Q=K=V (single projection)। शोध में synthetic tasks, vision tasks (MNIST, CIFAR, TinyImageNet), और language modeling (300M और 1.2B parameter मॉडल) पर प्रयोग किए गए। मुख्य खोज यह है कि Q-K=V projection sharing 50% KV cache reduction प्राप्त करता है केवल 3.1% perplexity loss के साथ। GQA और MQA के साथ मिलाने पर क्रमशः 87.5% और 96.9% तक cache reduction संभव है। यह on-device inference के लिए महत्वपूर्ण है। शोधकर्ताओं ने पाया कि keys और values समान representational spaces में रह सकते हैं और attention low-rank regime में काम करता है।