Browser Use:最先端の強いウェブエージェントがオープソースで登場

Browser Use

ウェブエージェントの新たな標準が生まれました。オープンソースからBrowser Useというウェブエージェントが登場しました。WebVoyagerベンチマークで89.1%という驚異的な成功率を達成し、昨年に登場したAnthropicのComputer Useをはるかに上回りました。Google検索やAmazonといった多くの人が活用するサービスでも自然言語ベースの指示をもとに90%を超える確度でのタスク成功率を誇り、エージェント技術の急先鋒と言えるでしょう。

2024年AIニュース完全ガイド
目次

Browser Useとは

Browser Useは、高度なAI技術と堅牢なブラウザ自動化を組み合わせたオープンソースWebエージェントです。多様なWebタスクを効率的に処理し、特に複雑なワークフローにおいてその強みを発揮します。このプロジェクトの目標は、AIエージェントがWebをよりスムーズかつ効率的に操作できるようにすることです。

高度なAI機能を活用して複雑なWeb操作をスムーズに実行します。視覚情報とHTML構造を統合することで包括的なWeb操作が可能となり、複数のタブを効率的に管理して並行タスクや複雑なワークフローにも対応します。また、クリックした要素のXPathを追跡して正確で一貫した自動化を実現します。さらに、ファイル保存やデータベース操作、通知、人間入力対応などのカスタムアクションを追加できる柔軟性を備えており、エラーの自動検知とリカバリーによる高い信頼性を確保しています。LangChainを使用したGPT-4、Claude 3、Llama 2など幅広いLLMをサポートする点も大きな特徴です。

Browser Useは、誰でも自由に使用できるMITライセンスの下で提供されています。このライセンスにより、ソフトウェアを使用したり、コピーしたり、変更したり、再配布することができます。ただし、著作権表示や許諾表示を含める必要があります。

Browser Useのパフォーマンス

Browser Useは、WebVoyagerベンチマークで89.1%の成功率を達成し、他のエージェント(Web Voyager: 50%、Computer Use: 52%、AgentE: 61%など)を大きく上回りました。この結果は、同エージェントの計画能力やサイト理解力の高さを示しています。

テスト結果
テスト結果

Browser Useは、多様なウェブサイトで安定したパフォーマンスを発揮しており、多くが8割以上の成功率を確保しています。最も難しいとされるBooking.comでも80%を超える成功率を維持しており、Browser Useの汎用性と堅牢性を示しています。

テスト対象のウェブサイト
テスト対象のウェブサイト

Browser Useでできること

Browser Useを使用すると、Googleドキュメントで指定された内容の手紙を作成し、それをPDF形式で保存することができます。これにより、定型文書の作成や保存が効率化されます。

Googleドキュメントでパパへの手紙を書いて、すべてに感謝の気持ちを伝え、PDFとして保存
Googleドキュメントでパパへの手紙を書いて、すべてに感謝の気持ちを伝え、PDFとして保存

履歴書の内容を基に関連する機械学習の求人情報を検索し、見つかった求人に自動応募することで、求職活動の時間と労力を大幅に削減できます。

履歴書を読んで、機械学習の仕事を探し、それらをファイルに保存し、その後、新しいタブで応募を開始
履歴書を読んで、機械学習の仕事を探し、それらをファイルに保存し、その後、新しいタブで応募を開始

Hugging Face上で特定のライセンスを持つモデルを検索し、人気順に並べて上位モデルの情報をファイルに保存することも可能です。これにより、研究や開発に必要なデータ収集が効率的になります。加えて、タスクの実行前に特定のウェブサイトを必ず開くといったカスタムシステムプロンプトを設定し、柔軟なワークフローを実現することができます。非エンジニアのユーザーでも日常的なタスクを簡単に自動化できる点で非常に有用です。詳細やその他の使用例については、公式のGitHubリポジトリから参照できます。

2024年12月25日から2025年2月2日までのチューリッヒ発北京行きのフライトを、kayak.comで検索
2024年12月25日から2025年2月2日までのチューリッヒ発北京行きのフライトを、kayak.comで検索

「Browser Use」について一言

2025年の生成AI界隈では「エージェント」というキーワードが飛び交っています。が、「エージェント」といってもその強さには幅があると理解しています。「弱い」エージェントは人間がある程度のプロセスを設計してチューニングすることで整理する仕組みとなります。一方で、「強い」エージェントはゴール地点だけ伝えてあとはAIやコンピューターが良しなにやってくれる仕組みを指します。

「エージェント」といった場合に、多くの現場が想定しているのは何だかんだ「弱い」エージェントになります。形で言うと、弊社が導入サービスを提供しているDifyであったり、Microsoft Copilot Studioといったツールを用いて、目的から逆算してプロセス、アーキテクト、プロンプトを設計・実装します。

一方で、今回紹介したBrowser UseやAnthropicのComputer Useは正真正銘「強い」エージェントと理解しています。昨年末にリリースされたComputer Useはまだ性能がイマイチでしたが、Browser Useの性能は高いレベルで安定していることがあり、「強い」エージェントのブレイクスルーとなるかもしれまブレイクスルーとなるかもしれません。

出所:Browser Use

2024年AIニュース完全ガイド
ProFabサービス資料
シェアをお願いします!

執筆者

慶應義塾大学卒業後、総合化学メーカーを経てデロイトトーマツコンサルティングに在籍。新規事業立ち上げ、M&A、経営管理、業務改善などのプロジェクトに関与。マーケティング企業を経て、株式会社ProFabを設立。ProFabでは経営コンサルティングと生成導入支援事業を運営。

TechTechでは、技術、ビジネス、サービス、規制に関する最新ニュースと、各種ツールの実務的な活用方法について、初心者でも理解できる明瞭な発信を心掛ける。日本ディープラーニング協会の実施するG検定資格を保有。

目次