OpenAI WebRTC 사용에 대한 기술적 문제점 지적
원제: OpenAI's WebRTC problem
왜 중요한가
음성 AI 서비스 구축 시 WebRTC 대신 더 적합한 프로토콜 선택의 중요성을 시사한다.
WebRTC 전문가가 OpenAI의 음성 AI에서 WebRTC 사용이 부적절하다고 주장했다. WebRTC는 네트워크 상황이 나쁠 때 음성 패킷을 적극적으로 드롭해 정확한 음성 프롬프트 전달을 방해하며, 실시간 버퍼링 없이 도착 시간 기반으로만 렌더링한다고 설명했다.
Twitch와 Discord에서 WebRTC SFU를 개발한 경험이 있는 개발자가 OpenAI의 WebRTC 사용을 비판하는 기술 블로그를 발표했다. 이 개발자는 WebRTC가 음성 AI에 부적합한 이유로 여러 가지를 제시했다. 첫째, WebRTC는 네트워크 상황이 좋지 않을 때 지연시간을 낮게 유지하기 위해 음성 패킷을 적극적으로 드롭한다. 화상회의에서는 빠른 상호작용이 중요하지만, 음성 AI에서는 사용자가 200ms 더 기다려서라도 정확한 프롬프트를 전달받는 것이 낫다고 주장했다. 둘째, WebRTC는 버퍼링 없이 패킷 도착 시간에 기반해 렌더링하는데, 이는 TTS가 실시간보다 빠르게 생성되는 상황에서 비효율적이라고 설명했다. 예를 들어 2초 만에 8초 분량의 오디오를 생성할 수 있다면, 생성되는 동안 스트리밍하고 클라이언트에서 버퍼링해야 하지만 WebRTC는 이를 지원하지 않는다. 마지막으로 OpenAI가 패킷이 정확한 시점에 도착하도록 인위적으로 지연을 추가해야 하지만, 네트워크 혼잡 시 패킷이 손실되면 재전송되지 않는다고 지적했다.