OpenAIは遂にWebタスクを自動化するAIエージェント「Operator」を発表しました。ECでの買い物、レストランの予約など、自然言語で依頼するタスクを自律的に遂行します」。この仕組みには「Computer-Using Agent (CUA)」という技術が活用されており、GPT-4oの視覚(スクリーンショット)と強化学習による高度な推論が機能しています。現在は米国のProプラン契約者のみですが、今後数ヶ月で全ユーザーへ展開される予定です。
Operatorの概要
Operatorは、ブラウザでのクリック、入力、スクロールといった人間の操作を再現し、Webタスクを実行するAIエージェントです。これにより、手間のかかる反復的なタスクを効率的に処理することが可能です。現在、この技術は米国のProユーザー向けに限定提供されていますが、今後はPlusやEnterpriseユーザーへの拡大が予定されています。また、オペレーターの基盤技術であるCUA(コンピュータ使用エージェント)をAPIとして提供し、開発者が独自のエージェントを構築できる環境を整える計画も進行中です。将来的には、オペレーターが複雑なデジタル操作にも対応し、日常的な作業の効率化だけでなく、企業や公共部門での活用も期待されています。例として、市民サービスの向上や業務プロセスの簡略化が挙げられます。
CUAのメカニズム
CUAの仕組みは、「認識」「推論」「アクション」という3つのプロセスを繰り返しながらタスクを実行します。まず「認識」の段階では、スクリーンショットを通じて画面の状態を把握し、ボタンやテキストフィールドなどのGUI要素を視覚的に認識します。その後、「推論」によって、過去の行動履歴や現在の状況を基に、次に取るべき最適なステップを判断します。この過程では、思考の連鎖を利用して動的にタスクを適応的に処理します。そして「アクション」の段階で、推論の結果に基づき、クリック、入力、スクロールなどの具体的な操作を実行します。機密性の高いタスクでは、ユーザーの確認を求める仕組みも備わっています。これらのプロセスにより、CUAはAPIや特定のソフトウェアに依存することなく、汎用的なデジタル環境で操作を実現しています。
CUAのパフォーマンス
CUAはいわゆるComputer UseとBrowser Useそれぞれの複数のベンチマークテストでその性能を評価されています。Computer UseはWindows、MacOSなどオペレーティングシステム、Browser UserはChrome、Bingといったウェブブラウザにおける性能を評価しています。
オペレーティングシステムを操作する環境であるOSWorldでは、38.1%の成功率にとどまり、GUIの多様性が課題となっています。これらの結果は、CUAが特定のシナリオで非常に有効である一方、複雑な操作や未対応の環境に対する改善が必要であることを示しています。
ウェブブラウザ向けのベンチマークであるWebArenaでは、オフライン環境でのWebタスクを模倣したベンチマークで58.1%の成功率を記録しました。特に複数のフィルター操作が求められるシナリオで効果を発揮し、人間のパフォーマンス(78.2%)に迫る結果を残しています。また、実在するWebサイトを使用したベンチマークであるWebVoyagerでは、成功率は87%に達しました。この環境では比較的単純なタスクが多いため、CUAの高い成果が確認されています。
Operatorのユースケース
Operatorは、具体的な日常タスクでその実力を発揮しています。例えば、食料品の注文では、定期的な買い物リストを作成し、Instacartを通じてスムーズに注文を完了することが可能です。また、旅行予約では、トリップアドバイザーでの人気ツアー検索や宿泊施設の予約を簡単に実行できます。さらに、文書操作の分野では、PDFの結合や画像圧縮といったデジタルドキュメント操作を短時間で処理できるため、手間を大幅に省けます。さらに、Redfinでの住宅検索や特定条件に基づく商品リサーチのように、カスタマイズされた検索も得意としています。Operatorによってこれらのタスクが自動化されることで、ユーザーは単純作業に費やす時間を短縮し、より創造的な活動に集中できるようになります。
安全性とプライバシーへの配慮
Operatorの設計では、安全性とプライバシー保護が重要な要素として考慮されています。まず、誤用防止策として、有害リクエストの拒否や特定サイトへのアクセスを制限するブロックリストが導入されています。また、モデレーションシステムによるリアルタイムの監視と警告機能も提供されています。次に、モデルミス対策として、外部の副作用を伴うタスクではユーザーの確認を要求し、銀行取引や重要な意思決定などの高リスクタスクは実行を禁止する仕組みが整えられています。さらに、プライバシー保護に関しては、データ収集をオプトアウト可能にする設定や、閲覧履歴や過去の会話データをワンクリックで削除できる仕組みが用意されています。これらの対策により、Operatorはユーザーの信頼を確保しつつ、安全かつ効率的な利用体験を提供します。
「Operator」について一言
昨年から待ち望まれていた「Operator」、遂に出ました。日本で利用できるようになっていませんが、Youtubeの参考動画などを見る限りでは、かなりの仕上がりでした。改めて、昨年末のProモードも含め、OpenAIの事業スピードは半端ないです。これだけのクオリティのものを立て続けに出し続けられることにただただ感動しています。
仕組みとしては昨年にAnthropicが出したComputer use、直近話題になったオープンソースのBrowser Use同様、スクリーンショットを活用するGUI模倣のアプローチでした。やはり、これまでのインターフェースが人間中心に構築されていることで、GUIに沿ったエージェントの構築となることも頷けます。仕上がりのほどはわかりませんが、API解放も近々計画されているそうで、一気にOpenAIのエージェントがマジョリティになる可能性もあります。
感じていることとしては、推論の高度化が進み、視覚機能と組み合わさることで今回のOperatorが実現したものの、パーソナライズされた情報処理のような部分は依然課題として残るような気がします(企業独自の情報を踏まえた判断や処理)。生成AIの技術とこれまでの技術の融合領域が浅く広がったのちに、深掘りのタイミングがやってくるのでしょうか。
出所:Introducing Operator(OpenAI)、Computer-Using Agent(OpenAI)