Moebius: 0.2B 경량 이미지 인페인팅 모델, 10B 수준 성능 달성

원제: Moebius: 0.2B image inpainting model with 10B-level performance

왜 중요한가

극도로 경량화된 고성능 이미지 생성 모델은 모바일·엣지 기기의 AI 활용을 확대하고 배포 비용을 대폭 절감하는 산업 변화를 시사한다.

화중과기대 연구팀이 개발한 Moebius는 2억2600만 개 파라미터로 119억 개 파라미터의 FLUX.1-Fill-Dev와 동등하거나 우수한 이미지 인페인팅 성능을 제공한다. 파라미터 2% 이하를 사용하면서 15배 이상 빠른 추론 속도(스텝당 26ms)를 달성했다.

화중과기대(HUST)와 VIVO AI Lab의 공동 연구팀은 경량화된 이미지 인페인팅 프레임워크 Moebius를 발표했다. 기존 10B급 대규모 모델은 높은 품질을 제공하지만 계산 비용이 매우 높아 실제 배포가 어려운 문제가 있었다.

Moebius는 이 문제를 해결하기 위해 Local-λ Mix Interaction(LλMI) 블록을 도입해 확산 모델(Diffusion Model) 백본을 재구성했다. 이 블록은 공간 문맥과 의미론적 선행 정보를 고정 크기의 선형 행렬로 압축하면서도 복잡한 잠재 상호작용을 보존한다.

또한 적응형 다중 세분성 증류(Adaptive Multi-Granularity Distillation) 전략을 활용해 모델의 표현 능력을 극대화했다. 이 전략은 잠재 공간 내에서만 작동하여 계산 비용이 큰 픽셀 공간 디코딩을 피한다.

성능 평가 결과, Moebius는 Places2(자연 장면), CelebA-HQ, FFHQ(인물 사진) 등 6개 벤치마크에서 FLUX.1-Fill-Dev, Stable Diffusion 3.5 Large-Inpainting과 동등하거나 우수한 결과를 보였다. 특히 복잡한 텍스처와 얼굴 이미지에서 더 나은 성능을 나타냈다.

주요 특징은 파라미터 수 2% 이하(0.22B vs 11.9B), GPU에서 스텝당 26.01ms의 초고속 추론, 15배 이상의 총 실행 시간 단축이다. 이는 소비자용 기기와 엣지 디바이스에서도 고품질 인페인팅을 가능하게 한다.

출처

hustvl.github.io — 원문 읽기 →