OpenAI、大規模音声AI配信の低遅延技術を公開
原題: How OpenAI delivers low-latency voice AI at scale
なぜ重要か
大規模音声AIサービスの技術課題解決は、リアルタイムAI市場の成長と普及に重要な基盤技術となる
OpenAIが音声AI配信の低遅延技術について詳細を公開した。9億人超の週間アクティブユーザーにリアルタイム音声AIを提供するため、WebRTC技術を基盤とした新アーキテクチャを開発。グローバル展開、高速接続確立、安定した低遅延通信を実現する技術的課題を解決したと発表した。
OpenAIの技術チームは、ChatGPTの音声機能やRealtime APIなどのリアルタイムAI対話サービスにおける低遅延配信技術の詳細を公開した。同社は9億人を超える週間アクティブユーザーに対して、自然な会話速度での音声AI体験を提供するという課題に直面していた。技術的要件として、グローバルリーチ、高速な接続確立、低遅延・安定したメディア往復時間の実現を挙げている。従来のWebRTCスタックでは、セッション毎の1ポート使用がOpenAIのインフラに適さない、ステートフルなICE・DTLSセッションの安定した所有権管理、グローバルルーティングでの低遅延維持という3つの制約が規模拡大で問題となった。この解決策として、リレー・トランシーバー分離アーキテクチャを開発。標準的なWebRTC動作をクライアント側で維持しながら、OpenAI内部でのパケットルーティング方法を変更した。WebRTC技術の採用により、ブラウザやモバイルアプリ間での低遅延音声・映像・データ送信、NAT越え接続確立、暗号化転送、品質制御などの標準化された機能を活用できると説明している。