EP.008

#8 AIに「失敗の記憶」を持たせたら同じミスを繰り返さなくなった

過去のエラーパターンを記憶し、繰り返すほど重いペナルティを課す新手法MEDSの仕組みと成果

2026年4月16日

RSS

番組ノート

今回の論文

タイトル: The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping
著者: Yang Liu et al.（復旦大学・上海イノベーション研究所）
発表: 2026年4月

このエピソードのポイント

AIが同じタイプの間違いを繰り返す「エラー崩壊」という問題に、過去の失敗を記憶させるアプローチで挑んだ
モデル内部の計算データを"推論の指紋"として再利用し、ほぼ追加コストゼロで失敗パターンを分類できる
数学ベンチマークで正答率が最大17%向上しつつ、解き方のバリエーションも増えた

#放課後論文ラジオ#AI#強化学習#LLM#報酬設計#数学推論#機械学習

論文を読み解く

Overview

ひと言でいうと

AIが強化学習で賢くなる過程で「同じ間違いを表現を変えて何度も繰り返す」問題に着目し、過去のエラーパターンを記憶して繰り返すほど重いペナルティを課す仕組み MEDS を提案し、数学推論の正答率と解法の多様性を同時に改善した研究。

Background

背景

大規模言語モデル（LLM）を強化学習で鍛えると、学習が進むにつれてモデルの出力が画一的になり、同じタイプの誤った推論を言い回しだけ変えて延々と繰り返す「エラー崩壊」が起きます。従来は「もっとランダムに出力させる」（エントロピー正則化）ことで多様性を保とうとしていましたが、LLMの出力空間は膨大なため、ランダム性を上げるだけでは「すでにハマっている間違いのパターン」から抜け出せません。人間であれば同じミスを繰り返すと「また同じことをやってしまった」と心理的ペナルティが増し、自然と回避行動をとります。この人間の学習メカニズムにヒントを得て、AIにも「過去の失敗の記憶」を持たせようというのが本研究の出発点です。

Novelty

何が新しいか

MEDS の核心は3つのステップに分かれます。

① 推論パターンの指紋をとる： モデルが回答を生成する際、内部のTransformer各層が出す「ロジット」（各単語の選ばれやすさを示す数値）を再利用して、その回答の "推論の指紋" を作ります。特に最終回答の最初のトークンに対する後半層のロジットを並べるだけなので、追加の計算コストはほぼゼロです。

② エラーの記憶と分類： 問題ごとに過去の不正解の指紋をストックし、密度ベースのクラスタリング手法 HDBSCAN で自動グループ化します。「問題の読み違え系」「計算ミス系」など、似た推論パターンの失敗が自然にまとまります。

③ 繰り返すほど重いペナルティ： ある回答が属するエラークラスタが大きい（＝同じ失敗パターンが頻出している）ほど報酬を差し引きます。これによりモデルは「よくやる間違い」を避け、新しい解法を探索するよう促されます。従来手法が「今この瞬間のランダム性」だけに頼っていたのに対し、MEDSは「過去の失敗履歴」という時間軸の情報を報酬設計に組み込んだ点が最大の新しさです。

Results

どんな結果が出たか

3つのモデル（Qwen3-1.7B / Qwen2.5-Math-7B / Qwen3-8B）を5つの数学ベンチマークで評価したところ、MEDSは全モデルで既存手法（GRPO、DAPO、エントロピー正則化付きGRPO）を上回り、pass@1（1回の回答で正解する率）で最大 4.13ポイント 、pass@128（128回中1回でも正解する率）で最大 4.37ポイント の改善を達成しました。特にQwen3-8Bの OlympiadBench では、DAPOの 70.81 から 82.67 へと相対 17% もの大幅向上を記録。さらに、LLMベースの評価と統計指標の両方で、回答の多様性が有意に向上していることも確認されました。計算コストの増加はDAPO比で約 6〜9% にとどまり、実用的な範囲です。

Key Point

なぜ重要か

この研究が示す「同じ失敗を記憶し、繰り返しを避ける」というアイデアは、数学に限らずAI活用全般に影響を与える可能性があります。たとえばカスタマーサポートのチャットボットが似たような的外れ回答を繰り返す、コード生成AIが同じバグパターンに陥る——こうした「AIの悪い癖」はビジネス現場でよく見られる課題です。MEDSの仕組みは、モデルの内部表現を再利用するだけで追加コストが極めて小さく、既存の強化学習パイプラインに後付けしやすい設計になっています。

また「ロジットの指紋」で推論パターンを分類できるという発見は、AIの思考プロセスを外から可視化・監視するツールとしても応用が期待されます。AIの判断根拠を説明する必要がある金融・医療・法律などの領域では、「このAIは今、過去と同じ間違い方をしようとしている」と事前に検知できることが品質管理の強力な武器になりえます。

From the Host

解説者ノート

個人的に面白いと感じたのは、「ロジットが推論パターンの指紋になる」という発見です。同じ間違い答え（1342）を出していても、推論の道筋が違えばロジットの指紋も異なり、逆に違う答えでも推論構造が似ていれば指紋も似る——これはAIの「思考の見える化」に直結する知見です。一方、論文自身も認めるように、ロジットの集約方法はまだシンプルなものしか試されておらず、より洗練された手法でさらに性能が伸びる余地がありそうです。数学以外のタスク（コード生成や自然言語推論など）での検証が今後の注目ポイントになるでしょう。

キーワード

強化学習（Reinforcement Learning）

AIに「良い結果には報酬、悪い結果にはペナルティ」を与えて行動を改善させる学習方法。ゲームや数学の問題解きでよく使われる

ロジット（Logits）

モデルが次の単語を選ぶ際の「各候補の有力度スコア」。モデル内部の計算過程で自然に生まれるため、追加計算なしに取り出せる

HDBSCAN

データの密集具合を見て自動的にグループ分けするクラスタリング手法。グループ数を事前に決めなくてよいのが特長

エントロピー正則化（Entropy Regularization）

出力の「ランダムさ」を一定以上に保つよう促す仕組み。多様性維持に使われるが、過去の履歴は考慮しない

pass@k

k回回答を生成したうちに少なくとも1回正解が含まれる確率。kが大きいほど「解ける可能性があるか」を測る指標になる

報酬シェーピング（Reward Shaping）

AIに与える報酬の設計を工夫して、望ましい行動をより効率的に学ばせるテクニック

論文情報

2604 11297

arXivで読む alphaXivで読む

トランスクリプト

かなで

はじまりました、放課後論文ラジオです。

ゆい

ゆいです！

かなで

かなでです。

ゆい

この番組は、最新のAI論文を2人でかみ砕いてわかりやすくお届けしてるよ！

かなで

ゆい、最近なんか同じ失敗繰り返したことない？

ゆい

えっ、急にどうしたの！

←前のエピソード

EP.007 #7 AIが「意味のない単語」をガン見してしまう現象の正体

次のエピソード→

EP.009 #9 AIの「検算」が100分の1のデータで賢くなった理由

EP.008|#8 AIに「失敗の記憶」を持たせたら同じミスを繰り返さなくなった

--:--/--:--