放課後論文ラジオ
放課後論文ラジオ
EP.015

#15 AIの答えが金太郎飴になる正体

学習のどこで多様性が失われるのかを徹底追跡した研究

2026年4月21日

番組ノート

今回の論文

  • タイトル: Where does output diversity collapse in post-training?
  • 著者: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras(University of Sheffield)
  • 発表: 2026年4月(arXiv プレプリント)

このエピソードのポイント

  • AIを「指示に従わせる学習」を重ねると、同じ質問への答えが似通っていく「多様性崩壊」が起きる
  • 学習データの構成次第で、多様性が失われる段階も度合いも大きく変わることが判明
  • 「考えるな」と指示しても多様性は戻らない。モデルの重みに焼き付いているので運用側の対策には限界がある
#放課後論文ラジオ#AI#LLM#機械学習#ポストトレーニング#多様性崩壊#ChatGPT

論文を読み解く

Overview

ひと言でいうと

「AIに指示を従わせる学習」を重ねると、答えのバリエーションが失われていく——この"金太郎飴化"がどの段階でなぜ起こるのかを、学習途中のチェックポイントを追跡して解明した研究。

Background

背景

ChatGPT のような LLM は、学習済みの土台モデル(ベースモデル)に対して「人間好みの答え方」を仕込む追加学習(ポストトレーニング)を施して作られます。ところがこの仕上げ工程を経ると、同じ質問に何度聞いても似たような答えしか返ってこなくなる「多様性の崩壊(diversity collapse)」という現象が起きます。

これは地味に困る問題です。AI に何度もサンプリングさせて良い答えを選ぶ「自己一貫性」や「pass@k」といった手法は、​出力にバリエーションがあることが前提。さらに創作や価値観が絡むトピックでは、単一視点の押しつけにもつながります。従来研究は「DPO が悪い」「SFT が悪い」と特定の手法のせいにしてきましたが、​学習データの中身の影響と切り分けられていませんでした。

Novelty

何が新しいか

著者らは Olmo 3 という、学習過程のチェックポイントがすべて公開されている珍しいモデル群に注目しました。Olmo 3 には3つの並行ルートがあります:

  • Think 系:2つの「先生モデル」から推論過程を学ぶ(狭いデータ)
  • Instruct 系:複数ソース(GPT-3.5/4 等)の幅広いデータで学ぶ
  • RL-Zero 系:中間工程を飛ばして、ベースモデルに直接強化学習

同じ3段階レシピ(SFT → DPO → RL)でも、上流のデータが違えばどうなるか?を比較できる理想的な実験場なのです。さらに面白いのが、Think モデルに「考えるな(chain-of-thought を出すな)」と指示してみる実験。これで、多様性の崩壊が モデルの重み に刻まれているのか、それとも 出力形式 の問題かを切り分けられます。15タスク・4つの多様性指標で徹底的に測定しました。

Results

どんな結果が出たか

見事に データ構成が崩壊の場所を決める ことがわかりました。

  • Think は SFT の段階でベースの多様性の 62% を失う(2人の先生に寄せすぎるため)
  • Instruct は SFT では 38% 減に留まるが、DPO で追加的に 23% 失う
  • RL-Zero は中間工程を飛ばすことで、ベースの 93% の多様性を保持

「考えるな」実験も決定的でした。Think モデルで CoT を封じると、難しい問題の正答率は最大 32% 落ちる一方、答えの多様性はまったく回復しない。つまり多様性の崩壊は出力形式ではなく、重みに焼き付いているのです。

さらに「正解だけを取り出した多様性」を見ると、IFEval では崩壊の 83% が「正解同士でも似通っている(真の均質化)」が原因、HumanEval では 10% 未満(ほぼ誤答の除去)と、タスク依存でした。

Key Point

なぜ重要か

これは「AI を業務で使う側」にとって実用的な示唆に富みます。

ひとつ目:ブレストや創作、多様な視点が欲しい用途では、Think 系のような「少数の先生から蒸留された」モデルは不利。複数ソースから学んだモデル、あるいは RL-Zero 型のモデルを選ぶべきです。​推論時の温度パラメータをいじっても、学習で失われた多様性は戻りません

ふたつ目:AI の「思考モード」オン・オフで多様性を制御できる、という期待は幻想です。多様性は学習段階で決まるので、運用側での対策には限界がある。

みっつ目:「16回サンプリングして多数決を取れば精度が上がる」という手法が、モデルによってまるで効かないことが判明。Base モデルは GSM8K で多数決により +24% 改善する一方、Think モデルはわずか **+0.4%**​(16個とも似通った答えなので票が割れない)。AI の「計算予算を増やして賢くする」戦略の効き目は、モデルの多様性に強く依存するのです。

そして最も本質的な点:価値観が絡む質問(PRISM タスク)では Think 系は 78% も多様性を失い、単一視点のリスクが高まります。AI の「意見の均質化」は学習時に埋め込まれている——これは社会的にも重い話です。

From the Host

解説者ノート

個人的に刺さったのは「CoT を封じても多様性は戻らない」という発見です。「考えさせ方」を変えれば挙動が変わるという素朴な直感が、実は運用時には通用しない——学習時点で勝負が決まっているという事実は、AI を導入する側の世界観を変えうる話です。一方、論文自身も認めているように、測っているのは「統計的なばらつき」であって「視点のばらつき」ではない。均質に見えても視点は多様かもしれないし、逆もある。ここの切り分けは今後の重要テーマになりそうです。

キーワード

ポストトレーニング

汎用的に学習されたベースモデルに「丁寧に・安全に・指示通りに」答えるクセを追加で仕込む工程

SFT(教師あり微調整)

お手本の回答を見せて真似させる学習。お手本が偏ると模倣も偏る

DPO(直接選好最適化)

「こっちの答えの方が良い」という好みのペアデータでモデルを調整する手法

Chain-of-Thought(CoT)

答える前に「考える過程」を文章で書き出させる手法。難問で精度が上がる

多様性崩壊

同じ質問への複数回答が似通ってしまい、バリエーションが消える現象

pass@k / 多数決

k 回サンプリングして1回でも当たれば OK(pass@k)/最多の答えを採用(多数決)。多様性が鍵

論文情報

2604 16027

トランスクリプト

K

かなで

はじまりました、放課後論文ラジオです。
Y

ゆい

ゆいです!
K

かなで

かなでです。
Y

ゆい

この番組は、最新のAI研究を2人で読み解きながらお届けしてます!
K

かなで

今日もよろしくね。
Y

ゆい

ねえねえかなで先輩、聞いてよ。

EP.015|#15 AIの答えが金太郎飴になる正体