구글 Gemma 4, 멀티 토큰 예측으로 추론 속도 향상
원제: Accelerating Gemma 4: faster inference with multi-token prediction drafters
왜 중요한가
오픈소스 AI 모델의 추론 속도 개선으로 실용적인 AI 애플리케이션 개발 가속화에 기여
구글이 Gemma 4 모델에 멀티 토큰 예측(MTP) 드래프터를 도입해 추론 속도를 개선했다고 5월 5일 발표했다. 이 기술을 통해 지연시간 병목현상을 줄이고 개발자들의 응답성을 향상시켰다고 밝혔다.
구글이 자사의 오픈소스 AI 모델인 Gemma 4에 멀티 토큰 예측(Multi-Token Prediction, MTP) 드래프터 기술을 적용하여 추론 속도를 크게 개선했다고 공식 블로그를 통해 발표했다. MTP 드래프터는 기존의 단일 토큰 예측 방식과 달리 여러 토큰을 동시에 예측함으로써 모델의 응답 시간을 단축시키는 기술이다. 이를 통해 Gemma 4는 지연시간 병목현상을 효과적으로 해결하고 실시간 애플리케이션에서의 성능을 향상시켰다. 구글은 이 기술이 특히 개발자들이 AI 애플리케이션을 구축할 때 더 나은 사용자 경험을 제공할 수 있도록 돕는다고 설명했다. MTP 기술은 모델의 정확도를 유지하면서도 처리 속도를 개선하는 것이 핵심이며, 이는 대규모 언어 모델의 실용성을 높이는 중요한 발전으로 평가된다.