AIの常識を覆す「Mercury」登場：世界初の商用拡散型LLMが10倍速の壁を突破

2025年3月7日

Inception Labsが開発した革新的な拡散大規模言語モデル「Mercury」が登場しました。従来型の言語モデルと比較して最大10倍の速度向上と大幅なコスト削減を実現したこの新技術は、AIの常識を覆し、今後さまざまなビジネス分野に革命をもたらす可能性を秘めています。

拡散大規模言語モデル「Mercury」とは

従来の大規模言語モデル（LLM）は、自己回帰型と呼ばれる仕組みで動作しています。このモデルでは、一つひとつの単語（トークン）を順番に生成するため、前のトークンが生成されるまで次のトークンを処理できません。そのため推論処理には時間とコストが非常にかかります。また、誤った情報や幻覚（存在しない情報）が生じても、即時修正が難しいという課題もあります。

これらの問題に対し、Mercuryが採用するのは拡散モデルという手法です。拡散モデルでは、まず粗い情報を生成し、その後に細かい情報を並列かつ段階的に付加・修正していきます。この方法により、トークンを一つずつ処理する制約を打ち破り、生成速度を飛躍的に高めることが可能となりました。具体的には、市販のGPU（NVIDIA H100）で1秒あたり1000トークン以上という、従来は専用チップでしか達成できなかったレベルの高速性を実現しています。

mercury-2 — Mercury（右側）は最初に回答全文を出力してしまう。

Mercuryファミリーの中でもコード生成に特化した「Mercury Coder」は、性能評価においても驚くべき結果を出しています。例えば、GPT-4o MiniやClaude 3.5 Haikuといった最速クラスの自己回帰型LLMを遥かに凌駕する速度と精度を示しました。さらに、Copilot Arenaなどの実際の開発環境において、開発者からもMercuryのコード生成能力が非常に高評価を受けています。Mercuryは高速でありながら高品質のコード生成が可能であることから、開発者の満足度も極めて高いです。

MercuryはAPIやオンプレミスでの展開が可能であり、既存のハードウェアやデータセットとも完全に互換性を持っています。そのため、企業のカスタマーサポートやコード生成をはじめ、エンタープライズオートメーション、さらにはリソースが限られたエッジデバイスへの展開にも有効です。Mercuryの高速性とエラー修正能力を生かし、リアルタイムでの高度な推論や、エージェントアプリケーションの高度化など、従来のAIでは難しかった用途にも新たな可能性を拓くことが期待されます。

「Mercury」について一言

拡散型モデルは画像生成の分野で主流となっておりましたが、Inception社はこのアプローチを言語生成の分野に応用したモデルを商用リリースしました。現在の言語生成は、言葉を前から順番に紡いでいく人間が話す時のようなスタイルですが、Mercuryでは一気に全文を出力した上で少しずつ品質を高めていくイメージです。

出力スピードが自己回帰型のモデルと比較して10倍という点は魅力的ではありますが、言語生成の分野がOpenAIやGoogle、Metaといったモデルを中心にエコシステム形成されつつあるので、若干遅いのではないかという印象もあります。今後どのような浸透の仕方をしていくのか、注目していきたいと思います。

出所：Introducing Mercury, the first commercial-scale diffusion large language model

執筆者

川村　浩太

慶應義塾大学卒業後、総合化学メーカーを経てデロイトトーマツコンサルティングに在籍。新規事業立ち上げ、M&A、経営管理、業務改善などのプロジェクトに関与。マーケティング企業を経て、株式会社ProFabを設立。ProFabでは経営コンサルティングと生成導入支援事業を運営。

TechTechでは、技術、ビジネス、サービス、規制に関する最新ニュースと、各種ツールの実務的な活用方法について、初心者でも理解できる明瞭な発信を心掛ける。日本ディープラーニング協会の実施するG検定資格を保有。