OpenAI, API에 새로운 음성 AI 기능 출시

원제: OpenAI launches new voice intelligence features in its API

왜 중요한가

실시간 음성 AI 기능으로 OpenAI가 대화형 AI 시장에서 경쟁 우위를 강화하며 다양한 산업 영역으로 확장

OpenAI가 5월 7일 개발자들이 대화형 앱을 만들 수 있도록 돕는 새로운 음성 AI 기능들을 API에 추가했다고 발표했다. GPT-Realtime-2, 실시간 번역 기능 GPT-Realtime-Translate(70개 입력언어, 13개 출력언어 지원), 실시간 음성-텍스트 변환 기능 GPT-Realtime-Whisper가 포함된다.

OpenAI는 개발자들이 사용자와 대화하고 전사하며 번역할 수 있는 앱을 만들 수 있도록 돕는 새로운 음성 인텔리전스 기능들을 API에 출시했다고 발표했다. 새로운 GPT-Realtime-2는 사용자와 현실적인 음성 대화를 만들어내는 음성 모델로, 이전 버전인 GPT-Realtime-1.5와 달리 GPT-5급 추론 능력을 갖춰 더 복잡한 사용자 요청을 처리할 수 있다고 OpenAI는 설명했다. GPT-Realtime-Translate는 실시간 번역 서비스를 제공하며, 70개 이상의 입력 언어와 13개의 출력 언어를 지원한다. GPT-Realtime-Whisper는 대화가 진행되는 동안 실시간으로 음성을 텍스트로 변환하는 전사 기능을 제공한다. OpenAI는 "우리가 출시하는 모델들은 실시간 오디오를 단순한 호출-응답에서 실제로 작업을 수행할 수 있는 음성 인터페이스로 발전시킨다"고 밝혔다. 이 기능들은 고객 서비스 확장을 원하는 기업들뿐만 아니라 교육, 미디어, 이벤트, 크리에이터 플랫폼 등 다양한 분야에서 활용될 것으로 예상된다. OpenAI는 스팸, 사기, 온라인 남용을 방지하기 위한 보호장치를 구축했으며, 유해 콘텐츠 가이드라인 위반이 감지되면 대화를 중단할 수 있는 트리거를 시스템에 내장했다고 설명했다.

출처

techcrunch.com — 원문 읽기 →