OpenAI, 대규모 저지연 음성 AI 전달 아키텍처 공개
원제: How OpenAI delivers low-latency voice AI at scale
왜 중요한가
대규모 실시간 음성 AI 서비스 구현 방법론 공개로 AI 음성 기술 발전에 기여
OpenAI가 9억 명 이상의 주간 활성 사용자를 위한 저지연 음성 AI 서비스 제공 방법을 공개했다. WebRTC 기반 아키텍처를 재설계해 전역 도달성, 빠른 연결 설정, 안정적인 미디어 전송을 구현했다고 발표했다.
OpenAI가 대규모 저지연 음성 AI 서비스 제공을 위한 기술 아키텍처를 상세히 공개했다. 회사는 ChatGPT 음성 기능과 Realtime API를 통해 9억 명 이상의 주간 활성 사용자에게 실시간 음성 상호작용을 제공하고 있다고 밝혔다.
OpenAI는 세 가지 핵심 요구사항을 제시했다: 9억 명 이상 사용자를 위한 글로벌 도달성, 세션 시작 즉시 대화 가능한 빠른 연결 설정, 자연스러운 대화를 위한 낮고 안정적인 미디어 왕복 시간이다. 기존 WebRTC 스택에서 발생한 제약사항들을 해결하기 위해 릴레이와 트랜시버를 분리한 새로운 아키텍처를 구축했다고 설명했다.
WebRTC는 브라우저, 모바일 앱, 서버 간 저지연 오디오, 비디오, 데이터 전송을 위한 개방형 표준이다. OpenAI는 이 기술을 활용해 NAT 통과, 암호화 전송, 코덱 협상, 품질 제어 등의 복잡한 미디어 처리를 표준화했다. WebRTC 원조 아키텍트 Justin Uberti와 오픈소스 구현체 Pion 개발자 Sean DuBois가 현재 OpenAI에 합류해 실시간 AI와 WebRTC 통합을 지원하고 있다.