OpenAIが新たに提供を開始した音声認識と音声合成モデルにより、AIと人間のコミュニケーションはこれまで以上に直感的で自然なものになります。今回の次世代モデルは騒音の多い環境や強いアクセントがある音声でも高い精度を実現し、さらに表現豊かな音声生成も可能となりました。音声テキスト変換モデル(Speech-to-Text)とテキスト読み上げモデル(Text-to-Speech)が含まれ、API経由で利用することができます。

次世代音声モデルとは
OpenAIが新たに発表した次世代音声モデルは、従来のWhisperモデルから大幅に進化したもので、「GPT-4o」の技術をベースに開発されています。音声をテキストに変換するモデルとテキストから音声を生成するモデルが公開され、開発者が自由に利用可能なAPIとして提供されています。これにより、より人間らしい、自然なコミュニケーションが可能なAIエージェントの開発が期待されています。
こうした進化を可能にしたのは、大規模な特化型オーディオデータセットを使った事前学習や、先進的な知識蒸留技術、強化学習を取り入れた新しい学習手法です。特に、強化学習を用いたアプローチにより、モデルは「誤りを最小化する行動」を学習し、高い精度を実現しています。
従来モデルとの違いは、単に大量のデータを学習させるのではなく、「会話におけるリアルな相互作用」を再現したデータセットを使用している点です。これにより、日常のコミュニケーションにより近い状況での音声認識や合成が可能となっています。
新しい音声モデルはAPIとしてすでに公開されており、開発者が簡単に利用できます。たとえば、カスタマーセンターでの音声応答システムや会議の議事録自動生成、さらには物語のナレーションや教育コンテンツの作成まで、様々な分野での応用が可能です。
音声テキスト変換モデル(Speech-to-Text)
音声をテキストに変換するモデルには、「gpt-4o-transcribe」と小型版の「gpt-4o-mini-transcribe」があります。従来のWhisperモデルと比べて、特に騒音の多い環境や強いアクセントがある話者、また話すスピードが異なる状況でも高い精度を保つことが特徴です。
具体的には、音声認識の精度を測る指標である「Word Error Rate(WER)」が大幅に改善され、国際的な音声ベンチマークテスト「FLEURS」においても他社の最先端モデルを上回る性能を示しています。これにより、会議の議事録作成やカスタマーサポート業務など、精度が求められる現場での活用が期待されています。
.png)
.png)
テキスト読み上げモデル(Text-to-Speech)
今回のモデルで特に注目されるのは「gpt-4o-mini-tts」というテキスト読み上げモデルです。このモデルでは、単に文章を読み上げるだけでなく、「優しく共感的なカスタマーサービス担当者のように話す」など、表現の仕方を細かく指示することが可能になりました。
これにより、単調になりがちだったAI音声がより表現豊かで自然なものになり、ナレーションやエンターテインメント、カスタマーサービスなどの分野での応用範囲が広がります。AIが話し方の微妙なニュアンスを捉え、より人間に近い音声体験を提供できるようになります。
「次世代音声モデル」について一言
OpenAIは素晴らしいモデルを続々とAPI開放してくれます。今回は音声モデルで、音声テキスト変換モデルと、テキスト読み上げモデルが含まれます。このAPIを活用することで、OpenAIがウェブアプリ上で提供しているVoice Engine(音声ベースで会話のやり取りができる)のような仕組みを開発することができます。
競合としてはGoogleの「Google Cloud Speech-to-Text」がありますが、リリースが2023年なので、おそらくOpenAIの方が高性能なのではないかと思います。ノイズ対応もされているということで、実際に使ってみたいと思います。
出所:Introducing next-generation audio models in the API
