마이크로소프트, 오픈소스 음성 AI 'VibeVoice' 공개
원제: Microsoft VibeVoice: Open-Source Frontier Voice AI
왜 중요한가
마이크로소프트의 고성능 음성 AI 오픈소스 공개로 음성 인식 기술 생태계 발전이 가속화될 전망
마이크로소프트가 GitHub에서 오픈소스 음성 AI 프로젝트 'VibeVoice'를 공개했다. 이 프로젝트는 60분 길이의 음성을 단일 패스로 처리할 수 있는 통합 음성-텍스트 모델 'VibeVoice-ASR'을 포함하며, 화자 식별, 타임스탬프, 내용을 구조화된 형태로 전사한다. 50개 이상 언어를 지원하는 다국어 모델이다.
마이크로소프트가 GitHub에서 차세대 음성 AI 프로젝트인 VibeVoice를 오픈소스로 공개했다. 이 프로젝트는 44,400개 이상의 스타를 받으며 높은 관심을 받고 있다. 핵심 구성 요소인 VibeVoice-ASR은 60분 길이의 긴 형식 오디오를 단일 패스로 처리할 수 있는 통합 음성-텍스트 모델이다. 이 모델의 주요 특징은 화자(Who), 타임스탬프(When), 내용(What)을 포함한 구조화된 전사를 생성하며, 사용자 맞춤형 컨텍스트를 지원한다는 점이다. 특히 50개 이상의 언어를 지원하는 네이티브 다국어 모델로 설계되었다. 2026년 3월 6일 발표에 따르면 VibeVoice-ASR이 Hugging Face Transformers 라이브러리 릴리스에 포함되어, 개발자들이 프로젝트에 쉽게 통합할 수 있게 되었다. 프로젝트는 ASR 파인튜닝, 데모, 문서화 등 다양한 구성 요소를 포함하고 있으며, MIT 라이선스 하에 배포되고 있다.