Riset & Makalah May 16 github.com

Orthrus-Qwen3 mampu mempercepat inferensi hingga 7,8x lipat

Judul asli: Orthrus-Qwen3: up to 7.8×tokens/forward on Qwen3, identical output distribution

Mengapa Ini Penting

Terobosan dalam efisiensi inferensi LLM dapat mengurangi biaya komputasi secara signifikan

Orthrus-Qwen3 mengumumkan framework dual-architecture yang mempercepat inferensi model Qwen3 hingga 7,8x lipat dengan output identik. Framework ini menggabungkan generasi token paralel diffusion model dengan fidelitas autoregressive LLM.

Orthrus menghadirkan implementasi resmi framework dual-architecture yang menggabungkan fidelitas generasi eksak dari Large Language Models (LLMs) autoregressive dengan kecepatan tinggi generasi token paralel dari diffusion models. Model Zoo menampilkan tiga varian: Orthrus-Qwen3-1.7B dengan percepatan rata-rata 4,25x, Orthrus-Qwen3-4B dengan 5,20x, dan Orthrus-Qwen3-8B dengan 5,36x. Semua model menggunakan backbone Qwen3 dan menjamin generasi yang benar-benar lossless. Repository GitHub menyediakan kode implementasi lengkap dan model checkpoint yang tersedia di HuggingFace.

Sumber

github.com — Baca artikel asli →

Orthrus-Qwen3 mampu mempercepat inferensi hingga 7,8x lipat

Mengapa Ini Penting

Sumber

Artikel terkait

Masuk untuk mendengarkan