o3 / o4-miniがリリース:ツール活用やモダリティの精度が大幅向上

o3

OpenAIが新たに発表した「o3」と「o4-mini」は、ツールの使い分け、マルチモーダルな推論、そして実用性において大きな飛躍を遂げたモデルです。エージェント的なタスク実行や画像を用いた思考の高度化、そしてAPI経由での柔軟な統合など、あらゆる面で実運用に近づいた設計が特徴です。高精度のSTEM系ベンチマークの達成、安全性への配慮、そして新機能「Codex CLI」の登場も含め、生成AIの次の段階を感じさせるアップデートとなっています。

目次

o3 / o4-miniとは

OpenAIの「o3」は、これまでで最も高度な推論能力を持つモデルであり、検索・コード・画像生成などすべてのツールに自律的にアクセスし、複雑な問題に対して深く、かつ構造的に答えを導き出すことができます。一方、「o4-mini」は軽量で高速な設計ながら、競技数学や視覚推論において優れた性能を発揮するコスト効率型のモデルです。

o3 image1
o3 image2
複数のツールを自律的に使いこなしタスクを進める
o3 image3

OpenAIは複数のベンチマークで、o3およびo4-miniが従来モデルと比べて大きく進化したことを示しました。たとえば、AIME 2025(数学競技)では、o4-miniが93.4%の正答率を記録し、過去最高水準に達しました。また、Codeforces(競技プログラミング)では、ELOスコア2700を超える結果を残し、STEM領域においても最高水準の性能を実現しています。特に数学やプログラミングといった構造化された課題において、高い正答率と安定した推論力を両立しています。

o3 aime
数学/コーディングで高水準のスコア

両モデルは、従来のGPTやo1と比較して、指示への追従精度、出力形式の最適化、そしてタスクの実行能力が大幅に強化されています。とくに注目すべきは、複数のツールを柔軟に使いこなすエージェント的な能力です。検索やPythonコードの実行、画像生成などを自律的に判断・組み合わせ、最適な出力を導く設計がなされており、タスク全体を俯瞰して処理できます。

o3 function calling
指示追従能力は高位安定

さらに、問いに対してはWeb検索を複数回行い、Pythonでの検証や画像生成などを織り交ぜながら、複雑なマルチステップ処理を1つのワークフローとして自律的に完結させます。これに加えて、会話文脈や過去の発言を活かして個別化された回答を生成できる点も、ユーザー体験の質を大きく向上させています。

o3 scale multichallenge
多段階のタスク完遂も高い性能

また、画像推論についても本格的に統合されており、画像を単なる入力ではなく“思考の材料”として捉え、ホワイトボード写真やグラフ、手書きのスケッチなどを読み取り、分析・可視化といったプロセスを一貫して担います。これはマルチモーダルな情報を含むビジネスタスクや研究用途でも特に強力です。MMMU・MathVistaといった視覚的ベンチマークにおいても、o1と比較して10〜30%の正答率向上が確認されており、画像や図表を含む高度なマルチモーダル推論タスクにおいて優れた性能を発揮しています。

o3 mmmu
画像処理もo1を超える性能

推論速度や実行コストの面でも最適化が進み、ツールを活用した複雑な出力処理であっても、通常1分以内に収束する設計となっています。これにより、研究開発用途のみならず、実運用環境でのAPI活用にも適したモデルとなっています。従来のo1より同等コストで、深い推論を実行可能(ツール使用時でも1分以内に収束)。

o3 cost performance
o1と比較して低い推論コストで高性能を実現

現在、o3およびo4-miniモデルは、ChatGPTの複数のプランにて利用可能です。具体的には、ChatGPT Plus、Pro、Teamプランでは即日から利用でき、EnterpriseおよびEducationプランにはリリースから1週間以内に提供が開始されます。開発者向けには、OpenAI API経由で「Chat Completions API」および「Responses API」から両モデルへのアクセスが提供されており、function calling、画像入力、ファイル処理、Pythonツール実行などの高度な機能にも対応しています。

同時に発表された「Codex CLI」は、ターミナル環境から画像・コード・自然言語を統合的に扱える軽量エージェントです。ローカルコードベースやファイルを参照しながら高度な推論を行える仕組みとして注目されており、OSSとして公開されています。

「o3 / o4-mini」について一言

OpenAIから最新モデルが出ました。ツール活用とエラーハンドリングが向上しているイメージ。画像認識を試してみましたが、OCR、日本語対応などツールを丁寧に使い2分程度で、高精度の出力を返せました。推論能力はともかく、OpenAIが画像認識にはそこまで強い印象はなかったので、かなりの進歩です。経済性という観点でもo3-mini、o1といったモデル比でかなり向上しており、API活用としての活躍も期待できます。強化学習スケーリングは事前学習の次のフェーズとして期待されているものの、さらなる先があるということで、AGIの到来も現実味を帯びてきました。Codex CLIはAnthropicもリリースしたClaude Codeと同様、プログラミング環境に常駐するエージェントのような存在です。AnthropicのClaude Codeもハイパフォーマンスですが、OpenAI環境に統一するのであれば試用の価値は十分にあるでしょう。

出所:Introducing OpenAI o3 and o4-mini

ProFabのAI導入サービスを詳しく見る!!

生成AIコンサルティング

全社に広くAIを普及させたい方。AI活用の構想策定、要件定義、ChatGPTなどAIツールの活用法をレクチャー。


AIアプリケーション開発

AIによる効果を深く享受したい方。AIワークフロー開発ツールDify、RAG、LLMを用いてAIアプリケーションを開発。

シェアをお願いします!

執筆者

慶應義塾大学卒業後、総合化学メーカーを経てデロイトトーマツコンサルティングに在籍。新規事業立ち上げ、M&A、経営管理、業務改善などのプロジェクトに関与。マーケティング企業を経て、株式会社ProFabを設立。ProFabでは経営コンサルティングと生成導入支援事業を運営。

TechTechでは、技術、ビジネス、サービス、規制に関する最新ニュースと、各種ツールの実務的な活用方法について、初心者でも理解できる明瞭な発信を心掛ける。日本ディープラーニング協会の実施するG検定資格を保有。

目次