
#41 「迷い」がAIを賢くする:反・自己蒸留の発見
勾配を逆にするだけで数学推論AIが2〜10倍速く学ぶ
2026年5月20日
番組ノート
今回の論文
- タイトル: Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information
- 著者: Guobin Shen, Xiang Cheng, Chenxiao Zhao et al.(小紅書 / 中国科学院自動化研究所)
- 発表: 2026年5月(arXiv プレプリント)
このエピソードのポイント
- 「正解を見た自分」を先生にする自己蒸留が、数学の難問ではむしろ性能を下げてしまう謎
- 原因は「待てよ」「もしかして」など"迷いの単語"を罰していたこと。推論に必要な力を消していた
- 解決策は勾配を逆向きにするだけ。学習速度2〜10倍、精度を最大+11.5ポイント改善
論文を読み解く
Overview
ひと言でいうと
「正解を見せた自分」を先生にして学ばせる従来手法が数学推論で失敗する原因を突き止め、勾配の向きを逆にするだけで学習速度を2〜10倍、最終精度を最大11.5ポイント引き上げた研究。
Background
背景
大規模言語モデル(LLM)に推論力を身につけさせる主流の方法は「強化学習」ですが、最終的な答えが正解か不正解かという1ビットの情報しか報酬がもらえません。長い推論プロセスのどの一手が良くてどの一手が悪かったのか、評価する手立てがないのです。
そこで近年広がっているのが「自己蒸留(self-distillation)」というアイデア。同じモデルに「正解という特権情報」を見せた状態を"先生"役にして、それと普段の自分("生徒")が一致するように学習させる手法です。外部の強い先生モデルがいらない点で魅力的ですが、なぜか 数学の難問では効かない、むしろ性能が落ちることが報告されていました。本研究はその謎を解明しようとしました。
Novelty
何が新しいか
著者らはまず、自己蒸留が各単語(トークン)に与えている「ご褒美」を1つずつ解析しました。すると驚くべき構造的バイアスが見つかります。
正解を知ってしまった先生にとって、「したがって」「与えられた」「成り立つ」といった 答えが分かれば自然に出てくる単語 には強い加点が、「待てよ」「もしかして」「あるいは」といった じっくり考え直す単語 には強い減点がついていたのです。つまり従来の自己蒸留は、推論に最も必要な"立ち止まって検討する力"を罰していたわけです。著者らはこの量が情報理論でいう「条件付き相互情報量(PMI)」に一致することを数式で示しました。
解決策はシンプルで挑発的です。「勾配の向きを逆にする」。先生に近づくのではなく、あえて先生から離れる方向に学習させる「Anti-Self-Distillation(反・自己蒸留)」を提案しました。さらに先生の出力が情報を持たなくなったときに自動でブレーキをかける仕組み(エントロピーゲート)を1つ加えるだけ。既存コードに置き換えるだけで動く軽い修正です。
Results
どんな結果が出たか
4B〜30Bパラメータの5つのモデル(Qwen3系、Olmo-3系)で数学コンテストの問題(AIME 2024/2025/2026、HMMT 2025、MinervaMath)を解かせた結果:
- 学習速度が2〜10倍:強化学習ベースライン(GRPO)が200ステップで到達する精度に、AntiSDは20〜100ステップで到達
- 最終精度が +2.1〜+11.5ポイント 向上
- 例えばQwen3-8BでHMMT 2025の正答率が、GRPOの 39.2% に対しAntiSDは 54.4%
- 一方、従来の自己蒸留は5モデルすべてでGRPOを下回り、Qwen3-8Bでは 57.4% → 30.6% と大きく劣化
- pass@32(32回挑戦して1回でも正解する率)でもAntiSDがリードを保ち、単に答えを絞り込むのではなく 本当に解ける問題が増えた ことを確認
Key Point
なぜ重要か
この研究の面白さは「常識を逆にしただけで大幅改善した」という痛快さだけではありません。
第一に、外部の強い先生モデルが不要になります。これまで強いAIを作るにはさらに強いAIが必要という鶏と卵の問題がありましたが、AntiSDはモデルが自分自身を教材にして賢くなる道を開きます。コストと依存関係を大きく削れます。
第二に、学習効率2〜10倍は実コストに直結します。LLMの強化学習は計算資源の塊で、1回の学習に数千万〜数億円かかることも珍しくありません。同じ精度に5倍速く到達できるなら、開発サイクルもコストも劇的に変わります。
第三に、より示唆的なのは「正解を見せすぎると考えなくなる」という発見が、人間の教育や組織マネジメントのアナロジーとして響くこと。答えを教えてしまうと"なぜ"を考える筋力が落ちる、というのはAIに限らない普遍的な構造かもしれません。AIに任せきりにせず「迷い」や「再検討」をどう設計するかは、人間とAIが協働する時代の重要なテーマになりそうです。
From the Host
解説者ノート
個人的に面白かったのは、「Wait(待てよ)」「Let(仮にこうしてみよう)」「Maybe(もしかして)」といった 躊躇いの単語が推論力の正体だった という洞察です。AIの賢さを支えているのが自信ではなく迷いだ、という構図は人間にも当てはまりそうで示唆的でした。一方で、勾配を反転させるだけで全部解決ではなく、エントロピーゲートというセーフティ機構が必須なモデルとそうでないモデルがある点は、まだ理論的に完全には整理されていない印象です。コーディングなど他領域への汎用性も今後の注目ポイント。
キーワード
強化学習(RL)
AIに「うまくいったら報酬」を与えて行動を改善させる学習法。本研究では答えが正解かで報酬が決まる
自己蒸留
同じAIが「特権情報を見た自分(先生)」と「見ていない自分(生徒)」に分かれて学習する手法
特権情報
訓練時だけ与えられる正解や正解への道筋。本番では使えない
GRPO
現在主流の強化学習アルゴリズム。複数回答を比較して学習する
PMI(相互情報量)
「ある情報を知ると、別の事柄の起こりやすさがどれだけ変わるか」を測る指標
エントロピーゲート
先生の出力が情報として怪しくなったら自動で学習を一時停止する仕組み
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい