Les transformers ont-ils besoin de trois projections ? Étude QKV
Original : Do transformers need three projections? Systematic study of QKV variants
Pourquoi c'est important
Optimisation mémoire cruciale pour le déploiement de transformers sur appareils
Recherche sur l'architecture des transformers examinant si les trois projections query-key-value sont nécessaires. Les variantes avec projections partagées montrent des performances équivalentes avec réduction significative de la mémoire.
Des chercheurs ont étudié systématiquement trois variantes de partage de projections dans les transformers : Q-K=V, Q=K-V, et Q=K=V. Les expériences couvrent des tâches synthétiques, vision (MNIST, CIFAR) et modélisation linguistique (300M et 1,2B paramètres sur 10B tokens). La variante Q-K=V atteint une réduction de 50% du cache KV avec seulement 3,1% de dégradation de perplexité. Combinée avec GQA-4, elle permet 87,5% de réduction de cache, et 96,9% avec MQA. L'étude montre que Q-K=V préserve la qualité car les clés et valeurs occupent des espaces représentationnels similaires.