Les transformers ont-ils besoin de trois projections ? Étude QKV

Original : Do transformers need three projections? Systematic study of QKV variants

Pourquoi c'est important

Optimisation mémoire cruciale pour le déploiement de transformers sur appareils

Recherche sur l'architecture des transformers examinant si les trois projections query-key-value sont nécessaires. Les variantes avec projections partagées montrent des performances équivalentes avec réduction significative de la mémoire.

Des chercheurs ont étudié systématiquement trois variantes de partage de projections dans les transformers : Q-K=V, Q=K-V, et Q=K=V. Les expériences couvrent des tâches synthétiques, vision (MNIST, CIFAR) et modélisation linguistique (300M et 1,2B paramètres sur 10B tokens). La variante Q-K=V atteint une réduction de 50% du cache KV avec seulement 3,1% de dégradation de perplexité. Combinée avec GQA-4, elle permet 87,5% de réduction de cache, et 96,9% avec MQA. L'étude montre que Q-K=V préserve la qualité car les clés et valeurs occupent des espaces représentationnels similaires.

Source

arxiv.org — Lire l'original →