Orthrus-Qwen3, 최대 7.8배 빠른 추론 속도 달성
원제: Orthrus-Qwen3: up to 7.8×tokens/forward on Qwen3, identical output distribution
왜 중요한가
LLM 추론 속도 개선은 실시간 AI 서비스 비용 절감과 사용자 경험 향상에 핵심적 역할을 한다.
오픈소스 프로젝트 Orthrus-Qwen3가 GitHub에 공개됐다. 듀얼뷰 디퓨전 디코딩 기법을 통해 Qwen3 모델 대비 최대 7.8배 빠른 토큰 생성을 실현하며, 동일한 출력 분포를 보장한다. 1.7B부터 8B까지 다양한 모델 크기 지원한다.
GitHub 사용자 chiennv2000이 Orthrus라는 LLM 추론 가속화 프레임워크를 공개했다. 이 프로젝트는 듀얼뷰 디퓨전 디코딩(dual-view diffusion decoding)을 통해 기존 자기회귀 LLM의 정확한 생성 품질을 유지하면서도 디퓨전 모델의 고속 병렬 토큰 생성 장점을 결합했다고 밝혔다. 모델 라인업으로는 Orthrus-Qwen3-1.7B(4.25배 가속), Orthrus-Qwen3-4B(5.20배 가속), Orthrus-Qwen3-8B(5.36배 가속) 등이 제공되며 모든 모델이 HuggingFace에서 다운로드 가능하다. 프로젝트는 무손실(lossless) 생성을 보장하며, Qwen3 백본을 사용한다. 설치는 uv 패키지 매니저를 통해 가능하며 flash-attn 등 추가 의존성 설치가 필요하다. MIT 라이선스로 배포되어 상업적 활용이 가능하다.