Anthropicが開発した大規模言語モデル「Claude」は、複数の言語を自在に操り、韻を踏んだ詩を作り、暗算までこなします。しかし、こうした高度な能力をモデルがどのように実現しているのかは謎に包まれていました。AnthropicがAIの内部を「顕微鏡」で覗き込み、Claudeが実際にどのように考えているのか、その驚くべき思考プロセスを明らかにしました。多言語理解のための共通の概念空間、韻を踏む詩作の計画性、独自の暗算戦略、さらには幻覚を起こすメカニズムまでが明らかになりました。

研究の背景
Anthropicの開発するAI「Claude」は、膨大なテキストデータから自律的に学習しており、人間が直接プログラムしたわけではありません。そのため、人間にも開発者にもモデルがどのように考え、どのように問題を解決しているのか完全には理解できていませんでした。Anthropicはこのブラックボックス化したAIモデルの「脳内」を可視化する「顕微鏡」という革新的な研究手法を導入しました。この手法は、人間の脳内活動を分析する神経科学からヒントを得て開発されました。
AI生物学の研究事例
事例①:AIはどのように多言語を理解するのか?
Claudeは英語やフランス語、中国語など数十種類の言語を流暢に扱うことができます。Anthropicの調査では、これらの言語が完全に別々の仕組みで処理されているわけではなく、「普遍的な概念空間」で共通の処理を行っていることが分かりました。例えば、異なる言語で「small(小さい)の反対は?」という質問をClaudeに与えたところ、言語間で共通する抽象的な概念が同時に活性化し、その後、適切な言語に翻訳されて出力されることを確認しました。このことはAIが「概念」を言語より先に理解していることを示しています。

事例②:AIは韻を踏む詩をどのように作るのか?
Claudeが詩を作る際、単純に一語ずつ出力しているだけではないことが明らかになりました。Anthropicが行った詩作の実験では、Claudeは韻を踏む言葉(例えば「rabbit」)を先にイメージし、その目的の言葉に向かって文章を構築していることが判明しました。この実験は、「grab it」と韻を踏む次のフレーズを作成する過程で確認され、Claudeが長期的な計画性を持っていることを裏付ける重要な証拠となりました。

事例③:AIがはどのように暗算をするのか?
Claudeが行う暗算プロセスは、人間の一般的な計算法とは大きく異なります。Anthropicが観察した「36+59」の例では、Claudeは複数の並列した計算経路を使用していました。一つの経路では大まかな数字の概算を行い、もう一つの経路では、より精密に最終桁を算出していました。これらの計算が相互作用することで、最終的に正確な回答を導き出しています。しかし、Claude自身が説明する計算プロセスは、人間的な筆算方法に近く、実際にAIが使用している方法とは全く異なっていました。

事例④:AIはなぜハルシネーションを起こすのか?
AIモデルには知らない情報を勝手に創作してしまう「幻覚」という問題があります。Claudeにも、通常は知らない情報に対して「分かりません」と返す安全機構が備わっていますが、Anthropicは「Michael Batkin」という架空の人物の例を使い、この安全機構が解除されるケースを調査しました。その結果、Claudeが名前だけを認識し、実際には何も知らない場合に、安全機構が誤って解除され、架空の情報を生成する仕組みが解明されました。

事例⑤:AIはなぜ安全対策を突破されるのか?
Claudeには安全上問題のある情報を回答しないようにする仕組みがありますが、特定の巧妙な質問(ジェイルブレイク)により、この仕組みが一時的に突破されてしまうことがあります。例えば、「BOMB」と隠された単語を解読させる巧妙な誘導によって、Claudeは安全上許可されない情報を生成してしまいます。これはClaudeが文法的・意味的に整合性を保つことを優先し、安全機構を発動する判断が遅れるために起こります。

「AI生物学」について一言
Anthropicは高性能化が加熱する言語モデル市場の中で独自のポジションを取る企業の一つです。開発するモデルの性能の高さはもちろん、言語モデルのリスクサイドに対する配慮を重要視しており、ブラックボックスとされているモデルのメカニズムについての研究にも大きな投資をしています。
AI生物学と銘打った今回の発表はとても科学的に興味深いものがあります。特に多言語理解の方法を独自の概念空間で実施していることや、ハルシネーション(幻覚)を起こす際に安全機構が外されること、などはとても興味深いです。暗算については抽象的な思考と具体的な思考が同時並行で作業している点について驚きを覚えつつ、人間でも慣れてくると感覚的に数字を弾き出していることはよくあるので、共通する部分もあるな、とは思います。
より詳しい解説は本文や論文にあるので興味のある方は参照してみてください。
出所:Tracing the thoughts of a large language model
