
#8 AIに「失敗の記憶」を持たせたら同じミスを繰り返さなくなった
過去のエラーパターンを記憶し、繰り返すほど重いペナルティを課す新手法MEDSの仕組みと成果
2026年4月16日
番組ノート
今回の論文
- タイトル: The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping
- 著者: Yang Liu et al.(復旦大学・上海イノベーション研究所)
- 発表: 2026年4月
このエピソードのポイント
- AIが同じタイプの間違いを繰り返す「エラー崩壊」という問題に、過去の失敗を記憶させるアプローチで挑んだ
- モデル内部の計算データを"推論の指紋"として再利用し、ほぼ追加コストゼロで失敗パターンを分類できる
- 数学ベンチマークで正答率が最大17%向上しつつ、解き方のバリエーションも増えた
論文を読み解く
Overview
ひと言でいうと
AIが強化学習で賢くなる過程で「同じ間違いを表現を変えて何度も繰り返す」問題に着目し、過去のエラーパターンを記憶して繰り返すほど重いペナルティを課す仕組み MEDS を提案し、数学推論の正答率と解法の多様性を同時に改善した研究。
Background
背景
大規模言語モデル(LLM)を強化学習で鍛えると、学習が進むにつれてモデルの出力が画一的になり、同じタイプの誤った推論を言い回しだけ変えて延々と繰り返す「エラー崩壊」が起きます。従来は「もっとランダムに出力させる」(エントロピー正則化)ことで多様性を保とうとしていましたが、LLMの出力空間は膨大なため、ランダム性を上げるだけでは「すでにハマっている間違いのパターン」から抜け出せません。人間であれば同じミスを繰り返すと「また同じことをやってしまった」と心理的ペナルティが増し、自然と回避行動をとります。この人間の学習メカニズムにヒントを得て、AIにも「過去の失敗の記憶」を持たせようというのが本研究の出発点です。
Novelty
何が新しいか
MEDS の核心は3つのステップに分かれます。
① 推論パターンの指紋をとる: モデルが回答を生成する際、内部のTransformer各層が出す「ロジット」(各単語の選ばれやすさを示す数値)を再利用して、その回答の "推論の指紋" を作ります。特に最終回答の最初のトークンに対する後半層のロジットを並べるだけなので、追加の計算コストはほぼゼロです。
② エラーの記憶と分類: 問題ごとに過去の不正解の指紋をストックし、密度ベースのクラスタリング手法 HDBSCAN で自動グループ化します。「問題の読み違え系」「計算ミス系」など、似た推論パターンの失敗が自然にまとまります。
③ 繰り返すほど重いペナルティ: ある回答が属するエラークラスタが大きい(=同じ失敗パターンが頻出している)ほど報酬を差し引きます。これによりモデルは「よくやる間違い」を避け、新しい解法を探索するよう促されます。従来手法が「今この瞬間のランダム性」だけに頼っていたのに対し、MEDSは「過去の失敗履歴」という時間軸の情報を報酬設計に組み込んだ点が最大の新しさです。
Results
どんな結果が出たか
3つのモデル(Qwen3-1.7B / Qwen2.5-Math-7B / Qwen3-8B)を5つの数学ベンチマークで評価したところ、MEDSは全モデルで既存手法(GRPO、DAPO、エントロピー正則化付きGRPO)を上回り、pass@1(1回の回答で正解する率)で最大 4.13ポイント 、pass@128(128回中1回でも正解する率)で最大 4.37ポイント の改善を達成しました。特にQwen3-8Bの OlympiadBench では、DAPOの 70.81 から 82.67 へと相対 17% もの大幅向上を記録。さらに、LLMベースの評価と統計指標の両方で、回答の多様性が有意に向上していることも確認されました。計算コストの増加はDAPO比で約 6〜9% にとどまり、実用的な範囲です。
Key Point
なぜ重要か
この研究が示す「同じ失敗を記憶し、繰り返しを避ける」というアイデアは、数学に限らずAI活用全般に影響を与える可能性があります。たとえばカスタマーサポートのチャットボットが似たような的外れ回答を繰り返す、コード生成AIが同じバグパターンに陥る——こうした「AIの悪い癖」はビジネス現場でよく見られる課題です。MEDSの仕組みは、モデルの内部表現を再利用するだけで追加コストが極めて小さく、既存の強化学習パイプラインに後付けしやすい設計になっています。
また「ロジットの指紋」で推論パターンを分類できるという発見は、AIの思考プロセスを外から可視化・監視するツールとしても応用が期待されます。AIの判断根拠を説明する必要がある金融・医療・法律などの領域では、「このAIは今、過去と同じ間違い方をしようとしている」と事前に検知できることが品質管理の強力な武器になりえます。
From the Host
解説者ノート
個人的に面白いと感じたのは、「ロジットが推論パターンの指紋になる」という発見です。同じ間違い答え(1342)を出していても、推論の道筋が違えばロジットの指紋も異なり、逆に違う答えでも推論構造が似ていれば指紋も似る——これはAIの「思考の見える化」に直結する知見です。一方、論文自身も認めるように、ロジットの集約方法はまだシンプルなものしか試されておらず、より洗練された手法でさらに性能が伸びる余地がありそうです。数学以外のタスク(コード生成や自然言語推論など)での検証が今後の注目ポイントになるでしょう。
キーワード
強化学習(Reinforcement Learning)
AIに「良い結果には報酬、悪い結果にはペナルティ」を与えて行動を改善させる学習方法。ゲームや数学の問題解きでよく使われる
ロジット(Logits)
モデルが次の単語を選ぶ際の「各候補の有力度スコア」。モデル内部の計算過程で自然に生まれるため、追加計算なしに取り出せる
HDBSCAN
データの密集具合を見て自動的にグループ分けするクラスタリング手法。グループ数を事前に決めなくてよいのが特長
エントロピー正則化(Entropy Regularization)
出力の「ランダムさ」を一定以上に保つよう促す仕組み。多様性維持に使われるが、過去の履歴は考慮しない
pass@k
k回回答を生成したうちに少なくとも1回正解が含まれる確率。kが大きいほど「解ける可能性があるか」を測る指標になる
報酬シェーピング(Reward Shaping)
AIに与える報酬の設計を工夫して、望ましい行動をより効率的に学ばせるテクニック
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい