Moebius : modèle inpainting 0.2B avec performance 10B
Original : Moebius: 0.2B image inpainting model with 10B-level performance
Pourquoi c'est important
Démontre que l'efficacité computationnelle en IA peut rivaliser avec la qualité sans sacrifier les performances, ouvrant l'inpainting haute fidélité aux appareils mobiles et edge.
Des chercheurs de l'université Huazhong présentent Moebius, un modèle de 220 millions de paramètres pour l'inpainting d'images. Il atteint la qualité de modèles 10 fois plus grands tout en étant 15 fois plus rapide, avec moins de 2% des paramètres de FLUX.1-Fill-Dev.
Moebius est un cadre d'inpainting d'images hautement optimisé développé par Huazhong University of Science and Technology et VIVO AI Lab. Le modèle compte 220 millions de paramètres (0.22B), soit moins de 2% de la taille de FLUX.1-Fill-Dev (11.9B). Malgré cette compression extrême, Moebius rivalise ou surpasse la qualité de génération des modèles industriels 10B sur six benchmarks couvrant des scènes naturelles et des portraits. L'architecture innovante repose sur le bloc Local-λ Mix Interaction (LλMI), qui résume les contextes spatiaux et les a priori sémantiques globaux en matrices linéaires de taille fixe, préservant les interactions latentes complexes tout en réduisant drastiquement les paramètres. Le modèle atteint une latence d'inférence de seulement 26.01 ms par étape sur GPU unique, offrant une accélération globale supérieure à 15× par rapport aux modèles 10B. Une stratégie de distillation multi-granularité adaptative est appliquée pendant l'entraînement, opérant uniquement dans l'espace latent pour éviter les décodages coûteux en espace pixel. Cette approche synergique permet d'obtenir un alignement haute fidélité tout en atténuant la perte de capacité causée par la compression structurelle extrême.