Orthrus-Qwen3 mampu mempercepat inferensi hingga 7,8x lipat
Judul asli: Orthrus-Qwen3: up to 7.8×tokens/forward on Qwen3, identical output distribution
Mengapa Ini Penting
Terobosan dalam efisiensi inferensi LLM dapat mengurangi biaya komputasi secara signifikan
Orthrus-Qwen3 mengumumkan framework dual-architecture yang mempercepat inferensi model Qwen3 hingga 7,8x lipat dengan output identik. Framework ini menggabungkan generasi token paralel diffusion model dengan fidelitas autoregressive LLM.
Orthrus menghadirkan implementasi resmi framework dual-architecture yang menggabungkan fidelitas generasi eksak dari Large Language Models (LLMs) autoregressive dengan kecepatan tinggi generasi token paralel dari diffusion models. Model Zoo menampilkan tiga varian: Orthrus-Qwen3-1.7B dengan percepatan rata-rata 4,25x, Orthrus-Qwen3-4B dengan 5,20x, dan Orthrus-Qwen3-8B dengan 5,36x. Semua model menggunakan backbone Qwen3 dan menjamin generasi yang benar-benar lossless. Repository GitHub menyediakan kode implementasi lengkap dan model checkpoint yang tersedia di HuggingFace.