ChatGPTの「Advanced Voice Engine」一般ユーザーへリリース：真のエージェントが誕生

2024年9月30日

OpenAIは、新機能「Advanced Voice Engine」を一般ユーザーにもリリースすることを発表しました。この機能はChatGPT PlusおよびTeamユーザー向けに段階的に展開され、音声アシスタントのカスタム指示やメモリ機能の追加も行われました。「Advanced Voice Engine」は2024年5月に発表されており、安全性の確認期間を経て、ついにリリースの時を迎えました。

Advanced Voice Engineのリリース

OpenAIは、ChatGPTの新機能「Advanced Voice Engine」を発表しました。当初、2024年6月下旬にリリースされる予定だったこの機能は、さまざまなセキュリティテストと音声モードの改良に時間を要したため、リリースが遅れ、7月下旬から8月上旬に一部の初期ユーザーに限定して展開されました。その後、順次拡大され、今後数日間でChatGPT PlusおよびTeamプランのユーザー全員が利用可能になる予定です。

Advanced Voice is rolling out to all Plus and Team users in the ChatGPT app over the course of the week.

While you’ve been patiently waiting, we’ve added Custom Instructions, Memory, five new voices, and improved accents.

It can also say “Sorry I’m late” in over 50 languages. pic.twitter.com/APOqqhXtDg
— OpenAI (@OpenAI) September 24, 2024

今回のリリースでは、音声アシスタントにおけるカスタム指示やメモリ機能の追加も行われており、ユーザーはこれを使って音声アシスタントをよりパーソナライズすることができます。また、5つの新しい音声が追加され、以下の選択肢から選べるようになりました。

Arbor：柔軟性があり、のんびりとした性格。
Breeze：活気があり、誠実さを持っている。
Cove：落ち着いており、率直な性格。
Ember：自信があり、楽観的。
Juniper：開放的で、明るく前向き。
Maple：陽気で、率直な性格。
Sol：聡明で、リラックスした性格。
Spruce：冷静で、肯定的な性格。
Vale：頭の良さと好奇心旺盛な性格。

これらは、既存のBreeze、Juniper、Cove、Emberとともに、ユーザーが音声体験を自由に選択できるようになっています。なお、この新しい音声モードはGPT-4oモデルでのみ利用可能で、プレビュー版のGPT-4o o1では使用できません。

Advanced Voice Engineとは

Advanced Voice Engineは、ChatGPTに新たに導入された音声モードで、より自然で人間らしい会話を実現する技術です。特に、話者のスピードや感情に基づいてリアルタイムで応答を行い、会話をスムーズに進行させる点が特徴です。また、ユーザーの個別ニーズに応じてカスタム指示やメモリ機能を使うことで、パーソナライズされた音声アシスタント体験が提供されます。

音声会話を開始する方法もシンプルです。ChatGPTアプリで音声モードを起動するには、画面の右下にある音声アイコンを選択するだけで、音声入力が可能になります。高度な音声モードを利用している場合、青い球体が表示され、音声チャットがアクティブであることが視覚的に確認できます。音声会話中にマイクのミュートや解除も簡単に操作できるため、スムーズに会話を進められます。

「Advanced Voice Engine」について一言

2024年5月に驚きを持って登場した待望の機能が遂にリリースされました。私もリリースから3日ほど経って、ようやく使えるようになりました。モデル精度の改善など日進月歩の機械学習の分野ですが、正直最もわかりやすく衝撃を受ける機能でした。応答速度・精度ともかなりのもので、普通の人と会話しているレベルに達していると言えます。英会話、営業のロープレに使ってみましたが、もはや普通の人には叶わないレベルに達しています。

他にもAppleのSiriやAmazonのAlexaなどのAI音声スピーカーは存在するため、競争は激化していますが、Advanced Voice Engineについて言うと、周辺機能との連携という意味でまだ道半ばではあるものの、応答品質では群を抜いているといって良いでしょう。

出所：OpenAI finally brings humanlike ChatGPT Advanced Voice Mode to U.S. Plus, Team users

シェアをお願いします！

執筆者

川村　浩太

慶應義塾大学卒業後、総合化学メーカーを経てデロイトトーマツコンサルティングに在籍。新規事業立ち上げ、M&A、経営管理、業務改善などのプロジェクトに関与。マーケティング企業を経て、株式会社ProFabを設立。ProFabでは経営コンサルティングと生成導入支援事業を運営。

TechTechでは、技術、ビジネス、サービス、規制に関する最新ニュースと、各種ツールの実務的な活用方法について、初心者でも理解できる明瞭な発信を心掛ける。日本ディープラーニング協会の実施するG検定資格を保有。