Microsoft、オープンソース音声AI「VibeVoice」を公開

原題: Microsoft VibeVoice: Open-Source Frontier Voice AI

なぜ重要か

長時間音声処理とマルチリンガル対応を備えた高性能音声AIのオープンソース化により、音声認識技術の民主化と開発エコシステムの拡大が期待される

Microsoftが音声認識AIシステム「VibeVoice」をオープンソースとしてGitHubで公開した。60分の長時間音声を一度に処理でき、話者・タイムスタンプ・内容を含む構造化された転写を生成する。50以上の言語に対応し、Hugging Face Transformersライブラリでも利用可能となっている。

Microsoftは音声AI技術「VibeVoice」をオープンソースプロジェクトとしてGitHubで公開した。このシステムの中核となる「VibeVoice-ASR」は、統合音声認識モデルとして設計されており、最大60分の長時間音声を単一パスで処理できる高度な機能を持つ。

主な特徴として、音声認識結果に「Who(話者)」「When(タイムスタンプ)」「What(内容)」の3つの要素を含む構造化された転写を生成する点が挙げられる。また、ユーザーがカスタマイズ可能なコンテキスト機能も提供している。

言語サポートについては、50以上の言語に対応したマルチリンガル機能を標準搭載している。技術的な統合面では、2026年3月6日にHugging Face Transformersライブラリの公式リリースに組み込まれ、開発者が既存プロジェクトにシームレスに統合できるようになった。

GitHubリポジトリでは44,400以上のスター、5,000以上のフォークを獲得しており、オープンソースコミュニティからの注目度の高さを示している。プレイグラウンド機能も提供されており、開発者は実際に機能を試すことができる。

出典

github.com — 元記事を読む →