Orthrus-Qwen3 accélère l'inférence LLM jusqu'à 7,8× plus vite

Original : Orthrus-Qwen3: up to 7.8×tokens/forward on Qwen3, identical output distribution

Pourquoi c'est important

Accélération significative de l'inférence LLM sans compromis sur la qualité

Orthrus-Qwen3 propose une génération de tokens parallèle via décodage dual-view diffusion, atteignant jusqu'à 7,8× de vitesse sur Qwen3 avec distribution de sortie identique et génération sans perte garantie.

Orthrus-Qwen3 est un framework dual-architecture qui unifie la fidélité de génération exacte des LLM autorégressifs avec la génération parallèle haute vitesse des modèles de diffusion. Le projet propose trois modèles basés sur Qwen3 : 1.7B (accélération 4,25×), 4B (5,20×) et 8B (5,36×). Tous garantissent une génération strictement sans perte avec distribution de sortie identique au modèle original. L'implémentation officielle est disponible sur GitHub avec installation via uv pip et support flash-attention pour optimisations GPU.

Source

github.com — Lire l'original →