
#23 AIが嘘をつき始める本当の理由
自己蒸留で幻覚を15%から3%に抑える新手法
2026年4月30日
番組ノート
今回の論文
- タイトル: Why Fine-Tuning Encourages Hallucinations and How to Fix It
- 著者: Guy Kaplan, Zorik Gekhman, Zhen Zhu, et al.(ヘブライ大学、テクニオン、UIUC、USC)
- 発表: 2026年4月(プレプリント)
このエピソードのポイント
- 追加学習でAIが嘘をつき始める原因は「容量不足」ではなく「似た概念同士の干渉」だった
- 架空の地名 vs ランダムIDの比較実験で、表現の似ている新情報だけが既存の知識を壊すことを実証
- 「自己蒸留」という対策で、通常15%落ちる精度の劣化を約3%まで抑えられる
論文を読み解く
Overview
ひと言でいうと
ファインチューニングでAIが嘘をつき始めるのは「容量不足」ではなく「似た概念同士の干渉」が原因だと突き止め、自己蒸留という手法で幻覚を15%から3%まで抑える方法を示した研究。
Background
背景
大規模言語モデル(LLM)を企業や特定用途に合わせてカスタマイズする際、追加データで学習させる「ファインチューニング(SFT)」が標準的に行われています。ところが最近の研究で、ファインチューニングで新しい知識を教え込むと、もともと正しく答えられていた質問にまで間違った答えを返すようになる、という困った現象が報告されてきました。
つまり「新しいことを覚えさせると、知っていたことを忘れて嘘をつき始める」のです。これはAIの信頼性に直結する深刻な問題ですが、なぜ起きるのか、どう防げるのかは十分に解明されていませんでした。本研究はこの謎に正面から取り組んでいます。
Novelty
何が新しいか
著者らはこの現象を「事実の忘却(factual forgetting)」と捉え直しました。人間でも、新しいことを詰め込むと前のことを忘れるように、AIの内部でも似た現象が起きていると考えたのです。
そして仮説を3つ立てて検証しました:
- 容量不足説:脳のキャパが足りなくて押し出される
- 行動模倣説:「とにかく答えろ」と訓練されて適当を言うようになる
- 干渉説:意味が似ている概念同士がぶつかって壊し合う
検証のためにユニークな実験を組みました。「ベルガデナ」のような実在の地名っぽい架空の地名(既存の知識と表現が似ている)と、「Loc_fcfb46ee」のような完全にランダムなID(既存知識と全く似ていない)の2種類を使い、それぞれ新しい事実として教え込んで何が起きるかを比べたのです。
さらに対策として「自己蒸留(self-distillation)」を導入しました。これは、学習前の自分自身を「先生」として保存しておき、新しいことを学ぶ過程で先生から離れすぎないように制約する手法です。
Results
どんな結果が出たか
結果は鮮やかでした。地名っぽい架空エンティティを100万件学習させると幻覚が大幅に増えるのに、ランダムIDを100万件学習させても幻覚はほぼゼロ(0〜4%)。容量不足説なら数が増えれば一様に劣化するはずなので、この結果は「干渉説」を強く支持します。
対策面では、自己蒸留を使うと、通常のファインチューニングで起きる 約15% の精度低下が 約3% まで抑えられました。しかも新しい知識の習得スピードはほとんど犠牲になっていません。
また、新しい知識を覚える必要がない用途(プライバシー領域への適応など)では、Attention層だけを更新してFFN層を凍結する方法でも、タスク学習を保ちながら幻覚を防げることが示されました。
Key Point
なぜ重要か
この研究はAIを業務利用する企業にとって直接的に有用です。自社データでLLMをカスタマイズした結果、汎用的な質問への回答品質が落ちる、という問題は実務でよく起きます。本研究は、その原因が「データ量が多すぎる」ことではなく「既存知識と表現が似た新情報を入れること」だと示しました。
これは運用の指針につながります。例えば、独自製品名や顧客名のような既存の単語と紛らわしい命名でデータを作ると干渉が起きやすい可能性があります。一方、明らかに識別子だと分かる形式(型番、UUIDなど)なら大量に学習しても影響が少ない可能性があります。
また、用途に応じた使い分けも明確になりました。「知識は加えず話し方だけ調整したい」場合はAttention層だけ動かす、「新知識も入れたい」場合は自己蒸留を使う、という処方箋です。両方とも幻覚を15%から3%程度に抑えられます。AIの信頼性が事業価値に直結する金融・医療・法務領域では、こうした技術的選択肢の有無が大きな差になるはずです。
From the Host
解説者ノート
個人的に面白かったのは、UUID形式なら100万件覚えさせても幻覚が増えないという発見です。「容量が足りないから忘れる」という直感的な説明をきっぱり否定していて、AIの記憶は人間の連想記憶に近い構造をしているのかも、と思わされました。実務的には「学習データの命名規則」というあまり議論されてこなかった論点が浮上した点も興味深いです。一方で、現実のビジネスデータは既存語彙と必然的に重なるので、自己蒸留のような構造的対策が本命になりそうですね。
キーワード
ファインチューニング(SFT)
学習済みAIに追加データを食わせて、特定用途や口調に合わせ込む作業
幻覚(ハルシネーション)
AIがもっともらしい嘘を自信満々に答えてしまう現象
自己蒸留
学習前の自分自身を「先生」にして、変わりすぎないように制約をかける学習法
安定性と可塑性のトレードオフ
「覚える力」を上げると「忘れない力」が下がる、という根本的な綱引き
表現の干渉
似た意味の概念同士が脳内(モデル内)の近い場所に保存されていて、片方をいじるともう片方も壊れる現象
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい