KOG AI, GPU서 초당 3천 토큰 실시간 LLM 추론 기술 공개
원제: Real-time LLM Inference on Standard GPUs: 3k tokens/s per request
왜 중요한가
AI 에이전트 시대에 필수적인 실시간 추론 속도를 표준 GPU로 구현해 전용 하드웨어 의존성을 해결한 기술적 돌파구
KOG AI가 AMD MI300X 8개 GPU에서 요청당 초당 3천 토큰, NVIDIA H200에서 2천1백 토큰을 생성하는 실시간 대형언어모델 추론 엔진을 발표했다. 기존 데이터센터 GPU의 소프트웨어 병목을 해결해 전용 추론 하드웨어 수준의 속도를 구현했다.
KOG AI가 표준 데이터센터 GPU에서 실시간 대형언어모델 추론을 위한 KOG 추론 엔진(KIE) 기술 프리뷰를 공개했다. AMD MI300X 8개 GPU 환경에서 요청당 초당 3천 토큰, NVIDIA H200 8개 GPU에서 초당 2천1백 토큰 생성 속도를 달성했다고 발표했다. 현재는 2B 모델로 테스트했으며, 향후 대규모 MoE 모델에서도 유사한 속도를 지원할 예정이다. KOG AI는 AI 에이전트에서 단일 요청 디코딩 속도가 핵심 지표라고 강조했다. 자율 소프트웨어 엔지니어링은 검사-계획-편집-테스트-수정의 순차적 루프로 진행되며, 각 단계가 이전 단계에 의존하기 때문에 토큰 생성 속도가 전체 작업 속도를 결정한다는 설명이다. 5만 토큰 워크플로우에서 100 토큰/초는 약 8분, 3천 토큰/초는 20초 미만으로 처리 가능해 사용자 경험이 크게 달라진다. 기존 추론 소프트웨어 스택이 이런 워크로드에 최적화되지 않았다고 지적하며, 모델 아키텍처, 런타임, GPU 코드를 단일 지연 최적화 파이프라인으로 공동 설계해 성능을 개선했다고 밝혔다.