OpenAI、APIに新音声インテリジェンス機能を追加
原題: OpenAI launches new voice intelligence features in its API
なぜ重要か
リアルタイム音声AI技術の進歩により、企業の顧客サービスや多言語対応アプリケーション開発が大幅に向上する可能性がある。
OpenAIは5月7日、開発者向けAPIに音声対話、文字起こし、翻訳機能を含む新たな音声インテリジェンス機能を発表した。GPT-Realtime-2はGPT-5レベルの推論能力を持つ音声モデル、GPT-Realtime-Translateは70以上の入力言語と13の出力言語に対応したリアルタイム翻訳機能を提供する。
OpenAIは木曜日、開発者がユーザーと対話、文字起こし、翻訳が可能なアプリケーションを作成できる新たな音声インテリジェンス機能をAPIに追加すると発表した。新しいGPT-Realtime-2は、ユーザーとリアルな音声対話を作成する音声モデルで、前世代のGPT-Realtime-1.5とは異なり、より複雑なユーザーリクエストに対応するためのGPT-5クラスの推論能力を備えている。同社はまた、ユーザーの会話に「歩調を合わせた」リアルタイム翻訳サービスを提供するGPT-Realtime-Translateも発売する。この機能は70以上の入力言語(理解可能な言語)と13の出力言語(話者に伝える言語)をサポートしている。さらに、インタラクションの発生と同時にライブ音声をテキストに変換するGPT-Realtime-Whisperという新しい文字起こし機能も提供する。同社は「今回発売するモデルにより、リアルタイム音声は単純な呼び出しと応答から、実際に作業を行える音声インターフェースへと進化する。会話が展開される中で、聞き取り、推論、翻訳、文字起こし、行動を取ることができる」と述べた。これらの機能は顧客サービス能力の拡張を目指す企業にとって明らかなターゲットだが、教育、メディア、イベント、クリエイタープラットフォームなど幅広い分野での活用も想定している。OpenAIは悪用防止のためのガードレールを組み込み、有害コンテンツガイドラインに違反していると検出された場合は「会話を停止できる」トリガーをシステムに埋め込んだと説明した。すべての新音声モデルはOpenAIのRealtime APIに含まれている。