OpenAIは、新機能「Advanced Voice Engine」を一般ユーザーにもリリースすることを発表しました。この機能はChatGPT PlusおよびTeamユーザー向けに段階的に展開され、音声アシスタントのカスタム指示やメモリ機能の追加も行われました。「Advanced Voice Engine」は2024年5月に発表されており、安全性の確認期間を経て、ついにリリースの時を迎えました。
【無料配布中】「企業版AIの導入アプローチ」
ChatGPT、Copilot、ExabaseといったAI関連ツールが多くサービス提供される中で、企業におけるAI導入アプローチを俯瞰的に整理しています。どのようなタイプのツールがあり、結局何を使ったら良いのか、シンプルかつ感覚的に、かつ短時間で理解されたい方におすすめです。
Advanced Voice Engineのリリース
OpenAIは、ChatGPTの新機能「Advanced Voice Engine」を発表しました。当初、2024年6月下旬にリリースされる予定だったこの機能は、さまざまなセキュリティテストと音声モードの改良に時間を要したため、リリースが遅れ、7月下旬から8月上旬に一部の初期ユーザーに限定して展開されました。その後、順次拡大され、今後数日間でChatGPT PlusおよびTeamプランのユーザー全員が利用可能になる予定です。
今回のリリースでは、音声アシスタントにおけるカスタム指示やメモリ機能の追加も行われており、ユーザーはこれを使って音声アシスタントをよりパーソナライズすることができます。また、5つの新しい音声が追加され、以下の選択肢から選べるようになりました。
- Arbor:柔軟性があり、のんびりとした性格。
- Breeze:活気があり、誠実さを持っている。
- Cove:落ち着いており、率直な性格。
- Ember:自信があり、楽観的。
- Juniper:開放的で、明るく前向き。
- Maple:陽気で、率直な性格。
- Sol:聡明で、リラックスした性格。
- Spruce:冷静で、肯定的な性格。
- Vale:頭の良さと好奇心旺盛な性格。
これらは、既存のBreeze、Juniper、Cove、Emberとともに、ユーザーが音声体験を自由に選択できるようになっています。なお、この新しい音声モードはGPT-4oモデルでのみ利用可能で、プレビュー版のGPT-4o o1では使用できません。
Advanced Voice Engineとは
Advanced Voice Engineは、ChatGPTに新たに導入された音声モードで、より自然で人間らしい会話を実現する技術です。特に、話者のスピードや感情に基づいてリアルタイムで応答を行い、会話をスムーズに進行させる点が特徴です。また、ユーザーの個別ニーズに応じてカスタム指示やメモリ機能を使うことで、パーソナライズされた音声アシスタント体験が提供されます。
音声会話を開始する方法もシンプルです。ChatGPTアプリで音声モードを起動するには、画面の右下にある音声アイコンを選択するだけで、音声入力が可能になります。高度な音声モードを利用している場合、青い球体が表示され、音声チャットがアクティブであることが視覚的に確認できます。音声会話中にマイクのミュートや解除も簡単に操作できるため、スムーズに会話を進められます。
「Advanced Voice Engine」について一言
2024年5月に驚きを持って登場した待望の機能が遂にリリースされました。私もリリースから3日ほど経って、ようやく使えるようになりました。モデル精度の改善など日進月歩の機械学習の分野ですが、正直最もわかりやすく衝撃を受ける機能でした。応答速度・精度ともかなりのもので、普通の人と会話しているレベルに達していると言えます。英会話、営業のロープレに使ってみましたが、もはや普通の人には叶わないレベルに達しています。
他にもAppleのSiriやAmazonのAlexaなどのAI音声スピーカーは存在するため、競争は激化していますが、Advanced Voice Engineについて言うと、周辺機能との連携という意味でまだ道半ばではあるものの、応答品質では群を抜いているといって良いでしょう。
出所:OpenAI finally brings humanlike ChatGPT Advanced Voice Mode to U.S. Plus, Team users