WebRTC専門家がOpenAIの音声AI実装を批判
原題: OpenAI's WebRTC problem
なぜ重要か
音声AI分野の急成長において、適切なプロトコル選択が製品品質に直結する技術的課題を専門家視点で明示
WebRTC専門家が、OpenAIの技術ブログで紹介された音声AI実装に対し強い批判を表明した。WebRTCはパケット損失により音声プロンプトの精度が低下し、人工的な遅延を導入する問題があると指摘。音声AI用途にはWebRTCが不適切だと主張している。
TwitchやDiscordでWebRTC実装を手がけた専門家が、OpenAIの音声AI技術ブログに対し批判記事を発表した。筆者は6年前にTwitchでWebRTC SFU(Selective Forwarding Unit)を開発し、その後DiscordでRust版を再実装した経験を持つ。WebRTCは約45のRFCと複数の事実上標準で構成される複雑なプロトコル群だという。
音声AI用途でWebRTCが不適切な理由として、ネットワーク状況悪化時に音声パケットを積極的にドロップする仕様を挙げた。会議通話では即座の双方向通信が重要だが、音声AIでは高精度なプロンプト送信が優先されるべきだと主張。ユーザーは200ミリ秒の遅延を受け入れてでも正確な音声入力を望むはずだと指摘した。
さらに、OpenAIのText-to-Speech実装における問題も指摘。2秒のGPU処理で8秒の音声を生成する場合、理想的にはストリーミング再生でネットワークの問題を緩和できるが、WebRTCは到着時刻に基づくレンダリングでバッファリングを行わない。これによりOpenAIは各音声パケット前に人工的な待機時間を挿入する必要があり、結果的に遅延を導入しながらも低遅延維持のためパケットを破棄する矛盾した状況になっているという。