Moebius:0.2Bパラメータで10Bレベル性能の画像修復モデル
原題: Moebius: 0.2B image inpainting model with 10B-level performance
なぜ重要か
極度に圧縮された軽量モデルが大規模モデルに匹敵する性能を実現する手法は、エッジデバイスおよび低リソース環境における生成AIの実用化を加速させ、産業応用の拡大を促進する重要な技術的突破口となる。
華中科技大学とVIVO AI Labの研究チームは、0.22Bパラメータの軽量画像修復フレームワーク「Moebius」を発表した。11.9BパラメータのFLUX.1-Fill-Devの2%未満のサイズながら、同等以上の生成品質を実現。推論速度は15倍以上高速化し、1ステップあたり26.01msの推論レイテンシを達成している。
Moebiusは、拡散モデルベースの画像修復フレームワークで、極度な構造圧縮による表現ボトルネックを解決するために設計された。中核となる技術革新は以下の通り。
【アーキテクチャ設計】Local-λ Mix Interaction(LλMI)ブロックを導入し、自己注意と交叉注意を再構成。空間的文脈とグローバルセマンティック先験知識を固定サイズの線形行列に圧縮することで、パラメータを大幅に削減しながら複雑な潜在相互作用を保持している。
【蒸留戦略】適応的マルチグラニュラリティ蒸留戦略を採用。潜在空間内で厳密に動作し、高価なピクセル空間デコーディングを回避。複数の勾配ベース損失を動的にバランスさせることで、高忠実度の整合を実現。
【性能評価】自然シーン(Places2)とポートレートシーン(CelebA-HQ、FFHQ)の6つの包括的ベンチマークで評価。FLUX.1-Fill-DevおよびSD3.5 Large-Inpaintingと比較し、複雑なテクスチャと顔の妥当性において優れた性能を発揮。推論レイテンシは単一GPU上で26.01ms/ステップを実現し、消費者向けおよびエッジデバイスでの実用的な展開を可能にしている。