अनुसंधान और पेपर May 16 github.com

Orthrus-Qwen3: 7.8倍高速化を実現

मूल शीर्षक: Orthrus-Qwen3: up to 7.8×tokens/forward on Qwen3, identical output distribution

यह क्यों महत्वपूर्ण है

LLM推論の高速化技術として、品質を保ちながら大幅な性能向上を実現している。

GitHub上でOrthrus-Qwen3が公開された。Qwen3バックボーンを使用し、最大7.8倍のトークン生成速度向上を達成。出力分布は完全に同一で、ロスレス生成を保証する。1.7B、4B、8Bモデルが利用可能。

Orthrusは、自己回帰型大規模言語モデル(LLM)の正確な生成品質と、拡散モデルの高速並列トークン生成を統合するデュアルアーキテクチャフレームワークです。Qwen3をバックボーンとして使用し、完全にロスレスな生成を保証します。

モデルラインナップは3つのサイズで提供されています。Orthrus-Qwen3-1.7Bは平均4.25倍、Orthrus-Qwen3-4Bは5.20倍、Orthrus-Qwen3-8Bは5.36倍の速度向上を実現しています。すべてのモデルはHuggingFaceで利用可能です。

インストールはuvやpipを使用して行い、flash-attnなどの依存関係も含まれています。このフレームワークは、メモリ効率的な並列トークン生成を可能にする革新的なアプローチを採用しています。