ウェブエージェントの新たな標準が生まれました。オープンソースからBrowser Useというウェブエージェントが登場しました。WebVoyagerベンチマークで89.1%という驚異的な成功率を達成し、昨年に登場したAnthropicのComputer Useをはるかに上回りました。Google検索やAmazonといった多くの人が活用するサービスでも自然言語ベースの指示をもとに90%を超える確度でのタスク成功率を誇り、エージェント技術の急先鋒と言えるでしょう。
Browser Useとは
Browser Useは、高度なAI技術と堅牢なブラウザ自動化を組み合わせたオープンソースWebエージェントです。多様なWebタスクを効率的に処理し、特に複雑なワークフローにおいてその強みを発揮します。このプロジェクトの目標は、AIエージェントがWebをよりスムーズかつ効率的に操作できるようにすることです。
高度なAI機能を活用して複雑なWeb操作をスムーズに実行します。視覚情報とHTML構造を統合することで包括的なWeb操作が可能となり、複数のタブを効率的に管理して並行タスクや複雑なワークフローにも対応します。また、クリックした要素のXPathを追跡して正確で一貫した自動化を実現します。さらに、ファイル保存やデータベース操作、通知、人間入力対応などのカスタムアクションを追加できる柔軟性を備えており、エラーの自動検知とリカバリーによる高い信頼性を確保しています。LangChainを使用したGPT-4、Claude 3、Llama 2など幅広いLLMをサポートする点も大きな特徴です。
Browser Useは、誰でも自由に使用できるMITライセンスの下で提供されています。このライセンスにより、ソフトウェアを使用したり、コピーしたり、変更したり、再配布することができます。ただし、著作権表示や許諾表示を含める必要があります。
Browser Useのパフォーマンス
Browser Useは、WebVoyagerベンチマークで89.1%の成功率を達成し、他のエージェント(Web Voyager: 50%、Computer Use: 52%、AgentE: 61%など)を大きく上回りました。この結果は、同エージェントの計画能力やサイト理解力の高さを示しています。
Browser Useは、多様なウェブサイトで安定したパフォーマンスを発揮しており、多くが8割以上の成功率を確保しています。最も難しいとされるBooking.comでも80%を超える成功率を維持しており、Browser Useの汎用性と堅牢性を示しています。
Browser Useでできること
Browser Useを使用すると、Googleドキュメントで指定された内容の手紙を作成し、それをPDF形式で保存することができます。これにより、定型文書の作成や保存が効率化されます。
履歴書の内容を基に関連する機械学習の求人情報を検索し、見つかった求人に自動応募することで、求職活動の時間と労力を大幅に削減できます。
Hugging Face上で特定のライセンスを持つモデルを検索し、人気順に並べて上位モデルの情報をファイルに保存することも可能です。これにより、研究や開発に必要なデータ収集が効率的になります。加えて、タスクの実行前に特定のウェブサイトを必ず開くといったカスタムシステムプロンプトを設定し、柔軟なワークフローを実現することができます。非エンジニアのユーザーでも日常的なタスクを簡単に自動化できる点で非常に有用です。詳細やその他の使用例については、公式のGitHubリポジトリから参照できます。
「Browser Use」について一言
2025年の生成AI界隈では「エージェント」というキーワードが飛び交っています。が、「エージェント」といってもその強さには幅があると理解しています。「弱い」エージェントは人間がある程度のプロセスを設計してチューニングすることで整理する仕組みとなります。一方で、「強い」エージェントはゴール地点だけ伝えてあとはAIやコンピューターが良しなにやってくれる仕組みを指します。
「エージェント」といった場合に、多くの現場が想定しているのは何だかんだ「弱い」エージェントになります。形で言うと、弊社が導入サービスを提供しているDifyであったり、Microsoft Copilot Studioといったツールを用いて、目的から逆算してプロセス、アーキテクト、プロンプトを設計・実装します。
一方で、今回紹介したBrowser UseやAnthropicのComputer Useは正真正銘「強い」エージェントと理解しています。昨年末にリリースされたComputer Useはまだ性能がイマイチでしたが、Browser Useの性能は高いレベルで安定していることがあり、「強い」エージェントのブレイクスルーとなるかもしれまブレイクスルーとなるかもしれません。
出所:Browser Use