Sudoku‑Bench:最先端のLLMでも解けない数独がLLMの次なる飛躍の鍵となる

Sakana AIが開発した数独ベースのベンチマーク「Sudoku‑Bench」は、AIモデルの“ひらめき”や多段階推論を測る新しい物差しとして注目を集めています。2025年5月に公開されたリーダーボードでは、最先端モデルでも正答率が15%に届かず、創造的な推論にはまだ大きな伸びしろがあることが示されました。

目次

Sudoku‑Benchとは

Sudoku‑Benchは、4×4のやさしい盤面から9×9の超難関“現代数独”まで、幅広い難易度をそろえた評価用データセットです。近年のAI向けベンチマーク(例:MMLUやGSM8K)は、知識を呼び出すタスクや短い推論鎖の問題が中心で、モデルがどこまで“創造的な推論”を行えているかを測り切れなくなってきました。ARC‑AGIのような高難度指標もすでに攻略が進み、研究者は次の物差しを求めています。

単純な9×9の数独に留まらず、現代にはより複雑な数独も存在する

数独にはベンチマークとして三つの長所があります。第一に唯一解が保証しやすいため正誤判定が明確です。第二に言語に依存しないので多言語モデルの差を排除できます。第三に、ルールを追加した“現代数独”を使えば難度を自在に調整できるため、モデルの限界ギリギリを突けます。数独は「仮説→検証」を繰り返しながら盤面を埋めるパズルなので、探索型の思考を自然に要求するのも魅力です。

Sudoku‑Benchには、パズル専門誌『ニコリ』の職人が手作りした数独100問と、世界的パズル解説チャンネル Cracking The Cryptic が公開する動画の書き起こし・操作ログが含まれています。手作りパズルは自動生成問題よりも多彩な“ひらめき”を要求し、動画の操作ログは世界トッププレイヤーの思考プロセスを追体験できる貴重な教材です。こうしたデータはGitHubで公開され、誰でもモデル訓練や評価に利用できます。

2025年5月に公開されたリーダーボードによると、o3 mini highやGemini 2.5 pro previewなど主要モデル5種の平均正答率は14.7%にとどまりました。最難関の9×9現代数独だけを見ると、最高成績でも2.9%という低水準です。

最先端のLLMでもSudoku-Benchのスコアは低い

モデルは追加ルールを読み取り、中盤までは矛盾なく数字を配置できます。しかし終盤になると候補数字がわずかに残るだけの状態で“決め手”を見つけられず、盤面を破綻させがちです。探索空間が爆発的に広がり、総当たり(brute‑force)では計算が追いつかないためです。

一方、熟練の人間プレイヤーは盤面を俯瞰し、「ここに3が入ればこの列が完成する」といった局所的な必然性を手がかりにブレイクインポイントを発見します。仮置きを極力避け、論理的に“安全”な一手を連鎖させることで、盤面を雪崩のように解決に導きます。モデルとの最大の違いは、この“ひらめき”と言える部分にあります。

「Sudoku‑Bench」について一言

数独がLLMにとって困難な理由は、その設計思想と数独が要求する思考プロセスの根本的な違いにあります。LLMは「次の単語を予測する」ように訓練されており、基本的に一方向の順次処理を行います。しかし数独は、一つの数字を置くたびに他のマス目への影響を考慮し、行・列・3×3ブロックという複数の制約を同時に満たす必要がある制約充足問題です。また、9×9のグリッド上での位置関係が重要ですが、LLMはテキストを一次元的に処理するため、空間的な構造を直感的に把握することが苦手です。さらに、複雑な数独では「仮置き」を行い、矛盾が生じた場合に前の状態に戻る必要がありますが、従来のLLMは生成したテキストを遡って修正することが困難で、このような柔軟な探索戦略を効果的に実行できません。

一方で、数独ベンチマークの克服は、単に数独が解けるようになること以上の意味を持ちます。数独を解けるLLMは、会議室の予約や人員配置といったスケジューリング最適化、限られた予算や人手をどう割り振るかというリソース配分、複雑なシステム設計など、現実世界で複数の条件を同時に満たす必要がある制約充足問題に対応できるようになります。

また、数独で必要とされる一歩ずつ論理を積み重ねる段階的な論理推論は、数学的証明や、プログラムが正しく動作するかを検証するプログラムの正確性検証、裁判での論理的な主張を組み立てる法的論証など、厳密な論理が求められる分野での性能向上に直結します。さらに、9×9のマス目という構造を理解するグリッド構造の理解が向上することで、グラフや表の読み取りである図表の解釈、建築図面や回路図の読み取りである設計図の解釈、チャートやグラフからパターンを見つけ出すデータ可視化の分析など、目で見る情報を処理する視覚的情報処理能力も大幅に向上することが期待できます。

数独ベンチマークは、現在のLLMの限界を明確に示すと同時に、次世代AIが目指すべき方向性を指し示しています。推論特化モデルや長考機能の発達により、この課題の解決は現実的な射程に入りつつあり、数独を解けるLLMの実現は、人工知能が真の意味で「考える」能力を獲得する重要なマイルストーンとなるかもしれません。

出所:AIの創造的な推論力を測る:Sudoku-Benchリーダーボード公開

ProFabのAI導入サービスを詳しく見る!!

生成AIコンサルティング

全社に広くAIを普及させたい方。AI活用の構想策定、要件定義、ChatGPTなどAIツールの活用法をレクチャー。


AIアプリケーション開発

AIによる効果を深く享受したい方。AIワークフロー開発ツールDify、RAG、LLMを用いてAIアプリケーションを開発。

シェアをお願いします!

執筆者

慶應義塾大学卒業後、総合化学メーカーを経てデロイトトーマツコンサルティングに在籍。新規事業立ち上げ、M&A、経営管理、業務改善などのプロジェクトに関与。マーケティング企業を経て、株式会社ProFabを設立。ProFabでは経営コンサルティングと生成導入支援事業を運営。

TechTechでは、技術、ビジネス、サービス、規制に関する最新ニュースと、各種ツールの実務的な活用方法について、初心者でも理解できる明瞭な発信を心掛ける。日本ディープラーニング協会の実施するG検定資格を保有。

目次