Microsoft VibeVoice: ओपन सोर्स Voice AI

मूल शीर्षक: Microsoft VibeVoice: Open-Source Frontier Voice AI

यह क्यों महत्वपूर्ण है

Microsoft का ओपन सोर्स Voice AI टूल multilingual speech recognition के क्षेत्र में महत्वपूर्ण योगदान

Microsoft ने VibeVoice नाम का ओपन सोर्स Voice AI टूल GitHub पर रिलीज़ किया। यह 60 मिनट तक की लॉन्ग-फॉर्म ऑडियो को एक ही पास में प्रोसेस कर सकता है और 50 से अधिक भाषाओं को सपोर्ट करता है।

Microsoft ने GitHub पर VibeVoice नाम से एक नया ओपन सोर्स Voice AI प्रोजेक्ट लॉन्च किया है। यह टूल 44,400 से अधिक stars और 5,000 forks प्राप्त कर चुका है। VibeVoice-ASR इसका मुख्य घटक है जो unified speech-to-text model के रूप में काम करता है। यह सिस्टम 60 मिनट तक की लॉन्ग-फॉर्म ऑडियो को एक ही पास में प्रोसेस कर सकता है और structured transcriptions generate करता है जिसमें Who (Speaker), When (Timestamps), और What (Content) की जानकारी शामिल होती है। यह User-Customized Context भी सपोर्ट करता है। 2026 में इसे Hugging Face Transformers library में integrate किया गया और यह 50 से अधिक भाषाओं को natively सपोर्ट करता है। प्रोजेक्ट में demo, docs, finetuning-asr, और vllm_plugin जैसे विभिन्न components शामिल हैं।

स्रोत

github.com — मूल लेख पढ़ें →