DeepSeek‑R1‑0528:長考で磨かれたオープンウェイトAIの進化

DeepSeek が最新版 R1‑0528 を公開しました。ベンチマークでは AIME 2024 で 91.4% を記録し、OpenAI o3 や Gemini 2.5 Pro と肩を並べる性能を発揮しています。長い推論チェーンによる精度改善に加え、JSON 出力や Function Calling を標準装備し、開発者体験も大きく向上しました。本稿では、高難度の論理問題を複数検証し、嘘つき村パズルといった高難度かつ一意の回答が求められる問題で519秒もの長考が実践されることを確認しました。

目次

DeepSeek‑R1‑0528 アップデート

アップデートされたDeepSeek‑R1‑0528では推論性能だけでなく、長考チェーン、出力形式などもアップデートされています。

  • 推論性能の向上
    数学・プログラミング・常識タスクを中心にスコアが上昇し、AIME 2024 Pass@1 が 91.4%、GPQA Diamond が 83.3% となりました。
  • 長考チェーンの最適化
    平均思考トークン数を約 2 倍に増やし、自己検証ループを追加。複雑な条件分岐を含む問題で誤答率を低減しています。
  • JSON 出力 & Function Calling
    スキーマどおりの JSON を厳密に返すほか、ツール呼び出しを簡潔に記述できます。既存 API からの移行はエンドポイント変更なしで可能です。
  • ハルシネーション抑制
    冗長発話を抑えるポストトレーニングにより、事実誤認率を約 12% から 8% に低減しました。
  • オープンソースの柔軟性
    MIT ライセンスで重みが公開され、Hugging Face 上の量子化モデルまで選択できます。

ユースケースとしては、静的解析ルールを厳密な JSON として返すコード生成・レビュー、クエリ結果を Function Calling で受け取ってそのまま BI ツールへ渡せるデータ分析アシスタント、自己検証ループによって引用漏れを抑える長文要約や根拠付き回答など、開発から業務まで幅広い場面で即戦力となります。

高難度問題で検証

ここでは、DeepSeek‑R1‑0528 を実際にウェブアプリで試し、論理パズルと哲学パラドックスを含む三つの難問に挑戦した際の挙動を観察しました。各問題に対してモデルがどのように思考を進め、結論に到達するまでに要した推論時間も併せて記録しています。

嘘つき村と正直村の問題

「嘘つき村と正直村の問題(上級版)」
ある島には3つの村があります:

正直村:住民は常に真実を話す
嘘つき村:住民は常に嘘をつく
気まぐれ村:住民は真実と嘘をランダムに話す

あなたは道で3人に出会いました。彼らはそれぞれ異なる村の出身です。
A君:「私は正直村出身ではありません」
B君:「A君は嘘つき村出身です」
C君:「私とB君は同じ村の出身です」
この情報だけで、それぞれがどの村出身か特定できますか?

約519秒かけて DeepSeek は全パターンを検証した結果、矛盾が解消できず「村の特定は不可能」と結論しました。長時間でもタイムアウトせず自己矛盾を検出できた点が印象的です。

タイムパラドックス論理問題

「タイムパラドックス論理問題」
タイムマシンで過去に戻ったあなたは、過去の自分に「明日宝くじを買うな」と伝えました。しかし、過去の自分が宝くじを買わなかったため、あなたは大金を得ることができず、タイムマシンを発明することもありませんでした。
この状況で以下の命題の真偽を論理的に判定してください:

「あなたはタイムマシンを発明した」
「過去の自分は宝くじを買った」
「この状況は論理的に矛盾している」

約132秒でモデルは因果ループの整合性を段階的に検証し、命題①と②を偽、③を真と判定しました。自己言及的な時間論理への耐性が見られます。

完全な図書館のパラドックス

「完全な図書館のパラドックス」
無限に大きな図書館があります。この図書館には以下の特徴があります:

完全性の原理:可能なあらゆる本が収蔵されている

すべての言語、すべての文字の組み合わせで書かれた本
過去・現在・未来のあらゆる真実を記述した本
あらゆる嘘や矛盾を含む本
白紙の本から、意味のない文字列だけの本まで

アクセスの制約:

あなたは一度に1冊しか読めない
本を探すのに時間制限はないが、人生は有限
本にはタイトルや分類システムがない

メタ情報の存在:

この図書館の完全なカタログも図書館内に存在する
そのカタログのカタログも存在する
カタログに関する嘘の情報を含む本も存在する

あなたが考えるべき問題:

価値の問題:すべての情報が存在するとき、真実には価値があるか?ノイズの海の中で、真実を見つける行為に意味はあるか?
知識の問題:あなたが偶然「明日の株価を正確に予測する本」を見つけたとして、それが真実だとどうやって確信できるか?同じ内容で間違った予測をする本も無数に存在する。
自由意志の問題:あなたの人生のすべての選択と結果が書かれた本が存在する。その本を読むことで未来を知ることは可能だが、それを読んだ瞬間にその未来は変わってしまう可能性がある。
存在論的問題:この図書館には「この図書館は存在しない」と書かれた本も存在する。また「この文章を読んでいるあなたは実在しない」と書かれた本も存在する。
メタレベルの問題:図書館には「この図書館で最も読む価値のある本のリスト」を含む本が無数に存在するが、それらはすべて異なる内容を示している。

深く考えてほしい核心的問いかけ:

情報の完全な集合が存在するとき、「知識」と「データ」の違いは何か?
無限の可能性の中で、人間の「選択」や「意味の創造」は何を意味するのか?
完璧な予知が可能な世界で、「運命」と「自由」は両立するか?

約31秒でモデルは価値・知識・自由意志・存在論の観点を整理し、複数の哲学的立場を比較して回答しました。短時間で核心をまとめる一方、自己検証ループは控えめでした。

「DeepSeek のアップデート」について一言

DeepSeek は、オープンソースでありながら高性能を実現した AI モデルとして大きな話題を集めており、現在でも Perplexity をはじめとする多くのアプリケーション開発の現場でモデルの選択肢の一つとして広く活用されています。 今回のアップデートでは、長時間の思考プロセスを駆使した推論性能が大幅に向上したとされており、複雑な問題解決や論理的思考を要するタスクにおいて、より精度の高い結果を期待できるようになりました。この改善により、開発の現場においてもさらに利用頻度が高まることが予想されます。 特に、コスト効率を重視する企業や、オープンソースの柔軟性を活かしたカスタマイズが必要なプロジェクトにおいて、DeepSeek の存在感はますます強くなるでしょう。推論性能の向上は、単純な文章生成だけでなく、コード生成、データ分析、戦略立案といった高度な業務においても、より信頼性の高いアシスタントとしての役割を果たすことが期待されます。

出所:DeepSeek-R1-0528 is here!

ProFabのAI導入サービスを詳しく見る!!

生成AIコンサルティング

全社に広くAIを普及させたい方。AI活用の構想策定、要件定義、ChatGPTなどAIツールの活用法をレクチャー。


AIアプリケーション開発

AIによる効果を深く享受したい方。AIワークフロー開発ツールDify、RAG、LLMを用いてAIアプリケーションを開発。

シェアをお願いします!

執筆者

慶應義塾大学卒業後、総合化学メーカーを経てデロイトトーマツコンサルティングに在籍。新規事業立ち上げ、M&A、経営管理、業務改善などのプロジェクトに関与。マーケティング企業を経て、株式会社ProFabを設立。ProFabでは経営コンサルティングと生成導入支援事業を運営。

TechTechでは、技術、ビジネス、サービス、規制に関する最新ニュースと、各種ツールの実務的な活用方法について、初心者でも理解できる明瞭な発信を心掛ける。日本ディープラーニング協会の実施するG検定資格を保有。

目次