트랜스포머 QKV 투영 간소화 연구

원제: Do transformers need three projections? Systematic study of QKV variants

왜 중요한가

트랜스포머의 메모리 효율성을 크게 개선하여 모바일 기기 등 제한된 환경에서의 AI 모델 배포 가능성을 확대한다.

연구진이 트랜스포머의 Query-Key-Value(QKV) 주의 메커니즘에서 세 개의 투영이 모두 필요한지 체계적으로 분석했다. Q=K=V 등 투영 공유 방식을 통해 메모리 사용량을 최대 96.9% 줄이면서도 성능을 유지할 수 있음을 300M~1.2B 파라미터 모델 실험으로 확인했다.

Ali Kayyam 등 연구진이 ICML 2026에서 발표한 논문에 따르면, 트랜스포머의 핵심인 QKV 주의 메커니즘에서 세 개의 투영을 간소화할 수 있는 방법을 제시했다. 연구팀은 a) Q=K≠V(키-값 공유), b) Q=K≠V(쿼리-키 공유), c) Q=K=V(단일 투영) 등 세 가지 투영 공유 제약조건을 체계적으로 평가했다. MNIST, CIFAR, TinyImageNet 등 비전 태스크와 10B 토큰으로 학습한 300M~1.2B 파라미터 언어 모델 실험 결과, 투영 공유 방식이 기존 QKV 트랜스포머와 동등하거나 더 나은 성능을 보였다. 특히 언어 모델링에서 Q=K≠V 방식은 KV 캐시를 50% 줄이면서 복잡도(perplexity) 저하는 3.1%에 그쳤다. 더 나아가 Group Query Attention(GQA)와 Multi-Query Attention(MQA)과 결합하면 캐시 사용량을 각각 87.5%, 96.9%까지 줄일 수 있어 엣지 디바이스에서의 실용적 추론이 가능하다. 연구진은 키와 값이 유사한 표현 공간에 위치하고 주의 메커니즘이 저차원에서 작동하기 때문에 Q=K≠V가 품질을 유지한다고 설명했다.

출처

arxiv.org — 원문 읽기 →