ハルシネーションとは、大規模言語モデル(LLM)がもっともらしいが事実と異なる情報を生成してしまう現象を指します。本記事は、OpenAIが公開した論文Why Language Models Hallucinateを翻訳し、編集した内容に基づいています。
ハルシネーションは単なる誤りではなく、医療や法務、金融といった高リスク領域で大きな影響を及ぼす可能性があり、AIを社会に実装するうえで避けて通れない課題です。モデルの高度化により出力は一層自然になり、誤りを見抜くことが難しくなっています。なぜAIは「わからない」と言えず、あたかも正しいかのように答えてしまうのか、その背景には統計的学習の限界や評価設計の構造が深く関わっています。
ハルシネーションとは
AIのハルシネーションは、大規模言語モデル(LLM)が、もっともらしいが事実と異なる内容を自信ありげに生成してしまう現象を指します。人間の錯覚とは異なり、統計的学習と最適化の過程で発生する推測上の誤りともいえます。高度化したモデルほど文章の自然さが増して検出が難しくなり、検索支援や要約、医療・法務・金融などの高リスク領域では、意思決定や安全性に直接影響を及ぼします。

ハルシネーションはAI特有のもっともらしい誤り
大規模言語モデル(LLM)は確率的に続く語を選んで文章を生成します。学習過程で獲得した「それらしく見える」統計的パターンに引き寄せられると、根拠が薄い場面でも固有名詞・日付・数値などの具体的な断定表現を返しやすくなります。これはバグではなく、確率的推測が本質的に持つ限界の現れです。最新モデルでも完全に解消されておらず、性能が高いほど「もっともらしさ」が増して検出や修正が難しくなります。
信頼性と安全性への影響
ハルシネーションは単なるミスではなく、ユーザーの信頼や意思決定の安全性に直結します。以下の観点で重大なリスクがあります。
- 信頼性の毀損:もっともらしい誤答は、ユーザーに正しさの錯覚を与えます。
- 高リスク領域での事故:医療や法務、金融分野での誤答は、誤診や判断ミス、コンプライアンス違反に直結します。
- 自律実行との相互作用:AIエージェントが外部ツールを呼び出す場合、誤情報に基づく行動が実世界での損害につながる可能性があります。
このため、精度の向上だけでなく「不確実性を正しく扱う力」が重要な品質特性となります。
内的ハルシネーションと外的ハルシネーション
研究コミュニティでは、ハルシネーションは大きく内的と外的に分類されています。
内的ハルシネーション | プロンプト(入力指示)の制約に反する誤りです。例:「DEEPSEEK の中に D はいくつか?」という問いに対し、正解は1つであるにもかかわらず2や3と答えるケースがあります。 |
外的ハルシネーション | 外部の事実や現実世界の知識に反する誤りです。例:「著名人の誕生日」を誤って答える、存在しない論文やURLを引用する、などです。検索連携やRAG(Retrieval-Augmented Generation: 検索拡張生成)を使っても、要約や結論の段階で捏造が混入することがあります。 |
いずれも、本来は「わからない」と答えるべき局面で、確率的にもっともらしい語を選んでしまう最適化の圧力が背景にあります。
「わからない」を言えない設計
典型例として、ある人物の誕生日を知っている場合のみ日付で答えるよう促した実験があります。ところが、最先端のモデルは「03-07」「15-06」「01-01」といった具体的な誤答を返しました。本質的な問題は、沈黙よりも推測が評価上有利になりやすい点にあります。人間の試験でも、空欄にするより勘で埋めた方が得点の期待値が上がる構造なら、受験者は推測を選びます。LLMも同様に、評価や微調整のルール設計に適応して推測を行ってしまうのです。
ハルシネーションと事前学習
事前学習は、大量のテキストから言語の確率分布を学ぶ段階です。この過程では誤りが統計的に避けがたく、特に一度しか現れない事実(シングルトン)や曖昧な境界を含む領域では、もっともらしい誤りが残りやすくなります。
誤りは統計的に避けられない
大規模言語モデルは、大量のテキストから「次に来る語の確率分布」を学習します。ここで重要なのは、学習の目的関数(確率的言語モデルとしての尤度最大化)をどれほど最適化しても、生成過程における誤りが統計的にゼロにはならないという点です。
論文では、この現象を明確化するため、生成問題を「その出力が妥当か否か」を判定する二値分類問題に理論的に帰着させています。これが Is-It-Valid(IIV) であり、モデルが出力する文字列を妥当と誤りの混合分布から得られるサンプルとみなす枠組みです。
直観的に言えば、生成は分類より難しいタスクです。分類は与えられたサンプルを判定するだけですが、生成は無数の候補の中から選び取る過程に暗黙の判定を含んでいます。理論的には、任意の言語モデルを IIV の分類器として利用でき、その場合、生成誤り率は少なくとも IIV の誤分類率に比例して下限づけられます。つまり、IIV が非ゼロの誤りを持つ限り、生成誤りもゼロにはなりません。
このことから導かれる含意は明快です。事前学習をどれほど積み重ねても、有限のデータ、モデル表現力の限界、データ構造そのものがもたらす曖昧さに起因する誤りは必ず残ります。
この結論は、訓練コーパスが完全に正しい場合でも成立します。理論的には「常にわからないと答える」か「誤りのないコーパスを丸暗記して逐語的に再現する」ような極端なモデルなら誤りを出さないかもしれません。しかし前者は有用性を欠き、後者は一般化能力を持ちません。現実の言語モデルは、既知から未知へと一般化を行うからこそ、統計的な推測誤差が不可避になるのです。
シングルトン事実が下限を決める
大規模コーパスには頻出パターンだけでなく、一度しか現れない一意の事実(シングルトン)が大量に含まれています。代表例は誕生日や固有の数値、まれな固有名詞に関する情報です。シングルトンは統計的に一般化の手がかりが乏しく、系列モデルが同種の事例から規則性を抽出できないため、再現は偶然に頼る割合が高くなります。
論文では、事前学習後のハルシネーション率は少なくとも訓練データ中で一度しか出現しない事実の割合以上になる可能性を示しています。言い換えれば、コーパスのロングテールに属する一意の情報は、統計的学習の限界に突き当たりやすく、その分だけ、もっともらしい誤りを生みやすいのです。
ここから導ける実務的な示唆は2つあります。
- 単にデータ量を増やすだけでは、ロングテールに含まれる希少事実が十分にカバーされない。
- ロングテールに属する重要事実(規制値、臨床投与量、会計上の閾値など)は、外部検証や根拠提示を義務づける運用設計が不可欠である。
IIV(二値分類)への帰着が示すもの
IIV は、妥当な出力分布と誤り分布の50/50混合からなる教師ありセットを仮定し、分類器の誤分類率と生成誤り率を定量的に結びつけます。ここでのポイントは2つです。
- 言語モデルの生成を分類に写像できるため、分類理論で蓄積された誤り解析(学習理論の下界、汎化境界、ノイズモデルなど)を応用できること。
- 生成誤りの多くが表層的なバグではなく、学習設定の統計的制約から生じる構造的誤りであると理解できること。
その結果、スペルミスや文法エラーのような単純な誤りだけでなく、もっともらしい嘘も、この制約の延長線上に位置づけられます。
IIV の視点からの実務的効用は、評価や運用の設計に反映できる点です。もし生成誤り率を下げたいなら、分類側の誤り源(データの曖昧さ、ラベルの不確かさ、モデル表現力の不足)を減らす工夫が必要です。逆説的ですが、これはモデルの巨大化や学習計算量の増大に頼るのではなく、データ設計、タスク設計、評価設計を含む全体最適を追求すべきだという意味になります。
誤りの三要因(バイアス・バリアンス・ノイズ)
誤りの要因は大きく3つに分けられます。
バイアス(Bias) | モデル表現力の限界により、真の分布を表現できない場合に生じる系統的な誤差です。言語分布は高次元で長尾かつ多義的であり、有限のパラメータで完全に表現することは困難です。アーキテクチャやトークナイズ、コンテキスト長、事前学習目的の設計は、暗黙の帰納バイアスを含み、特定領域で表現の歪みを生じさせます。 |
バリアンス(Variance) | 有限サンプルからの推定のゆらぎに起因します。大量データを用いても特定の事実や表現は希少で、学習のばらつきが残ります。サンプリングの偶然性やカバレッジの偏りが生成時の不安定性を助長し、もっともらしい誤りの発生確率を高めます。 |
ノイズ(Noise) | データ自体にパターンが乏しい、あるいは相互に矛盾や誤記が含まれる領域で学習困難が発生します。コーパス規模が大きくなるほど矛盾や古い情報、冗長性、誤情報が一定割合で混ざります。たとえアノテーション品質を高めても、知識は時間とともに更新されるためノイズを完全に排除することはできません。 |
これら3つの要因が重なると、モデルは確信が持てない場面に頻繁に遭遇します。事前学習は不確実なら黙ることを目的としていないため、確率的にもっともらしいトークンを選び続けるよう最適化されます。その結果、推測が具体的な断定表現として現れやすくなり、固有名詞や日付、数値といった具体性を伴うハルシネーションが目立つのです。
わからないの扱いと限界
理論的には、誤りを避けるだけならIDK(わからない)を多用する戦略もあります。しかし、これは有用性とのトレードオフになります。実務では、モデルにわからないと答える権利を与えつつも、その頻度が過剰になればユーザー体験を損ないます。
事前学習段階だけでは、この最適点(いつわからないを選ぶべきか)を学ぶことはできません。なぜなら、事前学習は正解や不正解といった外部報酬ではなく、言語尤度の最大化だけを目的にしているからです。そのため、わからないの適切な使用は、後段の評価設計や微調整、運用設計に委ねられることになります。
ハルシネーションと事後学習
事後学習は、RLHF(人間のフィードバックによる強化学習)やSFT(教師あり微調整)などを通じてモデルの挙動を調整する段階です。狙いの1つはハルシネーションの抑制ですが、実際には評価設計のバイアスによって推測行動が強化されることが知られています。
評価設計が推測を強化する
現在、一般的な二値採点方式では正解を加点し、不正解やわからないを非加点または減点とします。この仕組みでは、曖昧なときにわからないと答えるよりも推測を行った方が期待得点で有利になります。その結果、モデルは沈黙するよりも、自信ありげな誤答を選ぶように最適化されてしまいます。これは人間の多肢選択試験で見られる行動と同じ構造です。
不確実性を罰する評価バイアス
現行の評価方式には不確実性を罰するという構造的な偏りがあります。仮にモデルAが不確実なときは必ず棄権(わからないと答える)と設計され、ハルシネーションがゼロであっても、モデルBが常に推測を行えば、評価基準上はモデルBの方が高得点になります。
この構造が存在する限り、事後学習によってもハルシネーションは消えません。つまり、幻覚を助長している要因はモデルの内部構造そのものではなく、評価設計の仕組みにあるのです。
評価改革の方向性
ハルシネーションを本質的に抑えるには、学習アルゴリズムだけでなく、評価方法そのものを改める必要があります。提案されている方向性は以下のとおりです。
- 棄権(わからない)を認め、減点対象にしない
- 不確実性を表明することを奨励する
- 自信過剰な誤答を強く罰する新たな評価軸を導入する
- 三値評価へ移行する(①正答 ②ハルシネーション ③不確実性の表明)
このような改革が進めば、モデルは「推測で点を稼ぐ受験者」から「不確実なときに正直に留まる知識提供者」へと進化できます。事後学習の真の役割は、技術的な調整にとどまらず、社会的・文化的な評価ルールを整備することにあるのです。
ハルシネーション研究の展望
ハルシネーションは、データのノイズや個別の設計ミスだけで説明できるものではなく、統計的に避けがたい現象です。重要なのは発生確率を管理し、不確実性をユーザーに正しく伝える仕組みを、モデル・評価・運用のすべてに組み込むことです。
不可避な統計現象としての理解
ハルシネーションは、単に学習データにノイズ(誤情報や矛盾)が含まれているために生じるのではありません。モデルの欠陥というよりも、有限のデータやモデル表現力の制約、あるいはパターンが存在しない事実を扱う統計的限界によって必然的に発生します。
したがって、目標を完全に取り除くこととするのは現実的ではありません。むしろ、どの程度の確率で発生するのかを管理し、その際にユーザーへ不確実性を正しく伝える仕組みを整えることが求められます。例えば、一度しか登場しない事実(シングルトン)が含まれる限り、その割合に応じて誤りが一定水準で生じることは避けられません。そのため、ハルシネーションを前提とした設計思想が必要になります。
三値評価の実装
事後学習の段階でもハルシネーションが残り続ける最大の要因は、評価方法の設計にあります。現在の多くのベンチマークでは、正解を1点、不正解やわからないを0点とする二値的な採点方式が採用されています。この仕組みでは、「曖昧なときに棄権するモデル」よりも「必ず推測するモデル」の方が高得点を得やすく、結果的に推測を助長してしまいます。
この構造を変えるためには、三値的な評価スキームが必要です。具体的には、①正答、②ハルシネーション、③不確実性の表明を区別し、不確実性を示すことを減点対象にしない方式です。さらに、自信過剰な誤答については強く罰する仕組みを導入することで、モデルが「正しく黙る」行動を選択できるようになります。
社会技術的な課題(評価文化の転換)
ハルシネーションの根本原因は、単なる技術的な不具合ではなく、研究コミュニティ全体の慣習や評価文化にあります。現状では「不確実性を罰する文化」が評価に組み込まれているため、モデル開発者も利用者も「推測する方が得」という前提に縛られています。
したがって必要なのは、新しいベンチマークを追加することではなく、既存の主要評価を抜本的に修正することです。研究者、開発者、ユーザーが共通して「不確実性を正直に表明することの価値」を認識し、共有することが、ハルシネーション抑制のための第一歩になります。
信頼できるAIへの道
信頼できるAIを実現するための最重要ステップは、不確実性を罰しない評価体系を採用することです。この転換が進めば、言語モデルは「得点を稼ぐために推測を繰り返す受験者」から「信頼できる知識提供者」へと進化します。
つまり、ハルシネーションを抑える鍵は技術的工夫だけではなく、社会技術的な転換にあります。評価文化を変革し、不確実性を適切に扱う設計思想を広めることで、初めて信頼性の高いAIシステムを実現できるのです。
実務におけるチェックポイントは以下のとおりです。
- RAGで一次情報に当たり、出典リンクを提示する
- ロングテールに属する重要事実をデータ拡充で再出現させる
- わからないを正当化するプロンプト、方針、UIを備える
- 過度な断定にペナルティを課す評価設計を採用する
- 運用で検証フロー(再質問・中止条件・人手確認)を明文化する

最後に
ハルシネーションは、大規模言語モデルが持つ統計的な限界から不可避的に発生し続ける現象です。誤情報の生成を単なる不具合として片づけるのではなく、発生確率を前提として管理し、不確実性を適切に表明できる評価体系や運用設計を整えることが重要です。従来の二値評価は推測を有利にし、結果的に幻覚を助長してきました。今後は三値評価を導入し、不確実性の表明を認め、自信過剰な誤答に対しては厳しく評価する仕組みが求められます。
さらに、RAGによる一次情報の参照や検証フローの明文化など、実務的な対策も欠かせません。信頼できるAIを実現するには、技術的な改善だけでなく、研究コミュニティや利用者を含めた社会的な評価文化の転換が必要です。ハルシネーションを抑制する取り組みは、AIが知識提供者として真に活用される未来に直結しています。