Moebius: Model Inpainting 0.2B dengan Performa Setara 10B
Judul asli: Moebius: 0.2B image inpainting model with 10B-level performance
Mengapa Ini Penting
Menetapkan standar efisiensi baru untuk inpainting berkualitas tinggi, membuka akses teknologi generatif canggih ke perangkat konsumen dan edge computing.
Para peneliti dari Huazhong University of Science and Technology mengumumkan Moebius, model inpainting citra dengan parameter 0.22 miliar yang mencapai kualitas setara model 10 miliar parameter FLUX.1-Fill-Dev, dengan akselerasi inferensi 15x lebih cepat dan menggunakan kurang dari 2% parameter.
Moebius adalah kerangka kerja inpainting citra yang sangat efisien, dirancang untuk mengatasi biaya komputasi prohibitif dari model fondasi tingkat industri 10 miliar parameter. Penelitian ini mengatasi kemacetan representasi yang timbul dari kompresi struktural ekstrem melalui dua inovasi utama.
Pertama, peneliti memperkenalkan blok Local-λ Mix Interaction (LλMI) yang merekonstruksi tulang punggung diffusion secara sistematis. Blok ini menggabungkan modul Local-λ dan Interactive-λ untuk merangkum konteks spasial dan prior semantik global menjadi matriks linier berukuran tetap, mempertahankan interaksi laten kompleks sambil mengurangi parameter secara drastis.
Kedua, strategi distilasi multi-granularitas adaptif memaksimalkan kapasitas representasional arsitektur kompak. Strategi ini beroperasi sepenuhnya di ruang laten untuk menghindari decoding mahal di ruang piksel, dan menyeimbangkan secara dinamis berbagai loss berbasis gradien untuk mencapai penyelarasan kesetiaan tinggi.
Eksperimen ekstensif menunjukkan Moebius mencapai performa setara atau melampaui FLUX.1-Fill-Dev dengan hanya 0.22 miliar parameter versus 11.9 miliar, latensi inferensi 26.01 ms per langkah, dan akselerasi runtime total lebih dari 15x. Model mendemonstrasikan kinerja superior pada benchmark kompleks termasuk Places2, CelebA-HQ, dan FFHQ untuk skenario natural dan portrait.