Alibabaの推論モデル「QwQ-32B-Preview」がOpenAI o1-previewと同程度の性能を示す

QwQ-32B-Preview

大規模言語モデルQwenを開発するAlibabaは推論モデルである「QwQ-32B-Preview」をリリースしました。QwQ-32B-Previewは問いかけに基づく深い分析能力を持った新たなモデルです。先行するOpenAI o1 previewと同程度の性能を示しており、今後のモデル選定におけるオプションとなり得るでしょう。オープンソースで公開されており、GitHubやHugginfaceで試すことが可能です。

2024年AIニュース完全ガイド
目次

QwQ-32B-Previewとは

QwQ-32B-Previewは、「Qwen」チームによって開発された実験的な研究モデルで、問いを詰めることを通じて深い分析を実現することを目標としています。このモデルの核心にあるのは、「知ることの終わりなき探求」という概念です。QwQは「何も知らない」ことを自覚し、これがその好奇心を駆り立てる原動力になっています。

QwQ-32B-Previewは、大学院レベルの科学的推論能力を評価するGPQAでは、65.2%という高いスコアを達成し、科学的推論におけるモデルの優秀さを実証しました。また、高校数学の問題解決能力を測るAIMEでは、50.0%のスコアを記録し、数学的な課題に対する対応力を示しています。さらに、数学的理解を幅広いトピックにわたって測定するMATH-500では、驚異的な90.6%の結果を達成し、深い数学的洞察力を証明しました。プログラミング能力を評価するLiveCodeBenchでも、実世界のシナリオにおける問題解決力を示す50.0%のスコアを達成しています。

QwQ-32B-Previewのパフォーマンス
QwQ-32B-Previewのパフォーマンス

QwQ-32B-Previewは、まだ発展途上のモデルであるため、いくつかの制約が存在します。まず、複数の言語を混在させたり、予期せず言語を切り替えたりすることがあり、応答の明瞭性が低下する場合があります。また、循環的な推論パターンに入り込むことで、明確な答えに至らない長い応答を生成することがあります。さらに、モデルを実際に展開する際には、信頼性と安全性を確保するための追加対策が必要です。

オープンソースで公開されており、GithhubHugginfaceで試すことが可能です。

「QwQ-32B-Preview」について一言

先週も中国のAI企業による推論モデル「DeepSeek-R1-Lite-Preview」を紹介しました。推論モデルの開発がグローバルで盛り上がっています。DeepSeek-R1-Lite-PreviewはAIMEという数学的問題解決能力のベンチマークが52.5であり、QwQ-32B-Previewは50なのでこのベンチマークからは性能は同程度、OpenAI-o1-previewを上回る性能であることが言えます。

その他のスコアで先行するOpenAI-o1-previewと比較してもAIMEやMATH-500といったベンチマーク優っており可能性を感じさせます。さらに、Qwenの非推論モデル(Qwen2.5-72B Instruct)と比較すると倍近いスコアを達成しているベンチマークもあり、改めて、推論モデルの破壊力を感じます。

中国のAI企業であるDeepSeekやAlibabaが短期間でこのような成果を上げていることは、中国全体の推論型AIの進化を象徴しています。今後、これらのモデルがさらに改良されることで、グローバルな競争がますます激化することが予想されます。

出所:QwQ: Reflect Deeply on the Boundaries of the Unknown

2024年AIニュース完全ガイド
ProFabサービス資料
シェアをお願いします!

執筆者

慶應義塾大学卒業後、総合化学メーカーを経てデロイトトーマツコンサルティングに在籍。新規事業立ち上げ、M&A、経営管理、業務改善などのプロジェクトに関与。マーケティング企業を経て、株式会社ProFabを設立。ProFabでは経営コンサルティングと生成導入支援事業を運営。

TechTechでは、技術、ビジネス、サービス、規制に関する最新ニュースと、各種ツールの実務的な活用方法について、初心者でも理解できる明瞭な発信を心掛ける。日本ディープラーニング協会の実施するG検定資格を保有。

目次