
#31 ナンセンスがAIを賢くする不思議な話
プロンプトに意味不明なラテン語を混ぜると推論力が伸びる
2026年5月9日
番組ノート
今回の論文
- タイトル: Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration
- 著者: Langlin Huang, Chengsong Huang, Jinyuan Li et al.(ワシントン大学セントルイス校)
- 発表: 2026年5月(プレプリント)
このエピソードのポイント
- 難しすぎる問題で全部不正解になると学習が止まってしまう「ゼロアドバンテージ問題」を、ダミー文の追加だけで救えるという話
- 数学ベンチマークで最大+6.20点の改善。サンプリング数を単純に増やすより効果が大きい
- ただしランダムなら何でもいいわけではなく「ラテン語風で意外度が低い」ナンセンスがちょうどよく効く
論文を読み解く
Overview
ひと言でいうと
強化学習で AI を賢くする時、行き詰まった難問の前に「ロレム・イプサム」という意味のないダミー文を貼り付けるだけで、AI が新しい解法ルートを見つけられるようになる、という研究。
Background
背景
最近の大規模言語モデル(LLM)の推論力アップには、GRPO という強化学習手法が広く使われています。GRPO は「同じ問題に複数回答えさせて、相対的な良し悪しから学ぶ」仕組みなのですが、難しすぎる問題ではすべての試行が間違えることが起きます。すると「相対的な良し悪し」が消滅して、学習信号がゼロになってしまう(=ゼロアドバンテージ問題)。これは貴重な計算資源と訓練データの無駄遣いです。
単純に「もっと回数を増やしてサンプリングする」という対策もありますが、現状のモデルにとってその問題が難しすぎる場合、何度試しても結局当たらない。別の探索の仕方が必要だったのです。
Novelty
何が新しいか
著者らが目をつけたのは、デザイン業界でおなじみの「ロレム・イプサム(Lorem Ipsum)」 — 印刷物のレイアウト確認に使う、ラテン語風の意味のないダミー文章です。
具体的には、AI が問題を解けなかった時、問題文の前にランダムに組み立てたロレム・イプサム文を貼り付けて、もう一度解かせるだけ。たったこれだけです。
なぜこれが効くのか? 著者らの仮説は「プロンプト(入力文)を意味のない文で揺さぶると、AI の出力分布が少しズレて、今までと違う推論経路が開ける」というもの。一方、よくある「温度パラメータを上げて出力にランダム性を加える」手法(ロジット空間の摂動)は、同じ思考の枠内でブレるだけで、新しい道筋を開かない。
実際、ベン図で比較すると、ロレム・イプサム法は高温サンプリングが解けない難問を 50問独自に正解 していました。つまり、意味のないノイズだからこそ、本筋を壊さず思考を別方向に開けるわけです。
Results
どんな結果が出たか
3つのモデル(Qwen3-1.7B、Qwen3-4B、Qwen2.5-Math-7B)で数学ベンチマークを試した結果、通常の GRPO に対して平均で +2.79点〜+6.20点 の改善。特に大きいのは Qwen2.5-Math-7B での +6.20点(47.68→53.88)。
さらに興味深いのは、ただプロンプトを変えずにサンプリング数を増やしただけだと、むしろ性能が下がるケースもあったこと。単純な「数で押す」戦略の限界が示されています。
また、他のランダム文を試した結果、「ラテン語風で、かつパープレキシティ(モデルにとっての意外度)が低い」摂動が一番効く ことが分かりました。逆に、語彙からランダムにトークンを引っ張ってきた完全ノイズはむしろ性能を下げた。「ほどよく意味不明」がスイートスポットなのです。
Key Point
なぜ重要か
この研究の面白さは、「LLM の訓練効率を、ほぼコストゼロのトリックで上げられる」ことを示した点にあります。
ビジネス的に見ると、強化学習による LLM の訓練は GPU 時間が膨大にかかる工程です。ゼロアドバンテージ問題で計算資源が無駄になると、それだけ訓練コストが膨れ上がる。プロンプトに数百トークンのダミー文を加えるだけでこの無駄を救えるなら、訓練コストの削減と最終性能の向上を同時に実現できるわけで、AI を自社で訓練・チューニングする企業には直接効く話です。
もうひとつ、より深い示唆として「AI の挙動はプロンプトの『内容』だけでなく『文脈の揺らぎ』に強く影響される」ことが改めて確認された点も重要です。プロンプトエンジニアリングの実務でも、意味のあるヒントを加えるだけでなく、文脈そのものを揺さぶる発想が新しいテクニックを生むかもしれません。
そして何より、「ナンセンスな文字列を加えるとAIが賢くなる」という結果自体が、AI が言語をどう処理しているかについての我々の直感を揺さぶります。AI は人間とは違う論理空間で動いているという事実を、わかりやすい形で見せてくれる研究です。
From the Host
解説者ノート
個人的に面白かったのは「ナンセンスを加えるという発想自体」より、「意味のないノイズなら何でもいいわけではなく、ラテン語風で低パープレキシティが効く」という丁寧な切り分け の部分です。完全ランダムなトークン列はむしろ逆効果という結果は、「AI を揺さぶるにも作法がある」と感じさせます。一方で、なぜラテン語風が良いのかの理論的説明はまだ仮説段階。今後、他言語モデルや非数学タスクで再現するかが気になるところです。
キーワード
GRPO
「同じ問題を AI に複数回解かせ、相対的に良かった答えに寄せていく」強化学習の手法。正解の絶対基準を別途用意しなくていいのが利点
ゼロアドバンテージ問題
全部の試行が間違えると「どれが相対的にマシか」の差が消えて学習が止まる現象。難問ほど起きやすい
ロレム・イプサム
デザイン業界で使われるラテン語風のダミー文。意味は持たず、見た目だけ自然言語っぽく作られている
プロンプト空間の摂動
入力文そのものを揺さぶる手法。出力にランダム性を加える「ロジット空間の摂動」とは別物
パープレキシティ
モデルから見た「意外度」。低いほど自然な文に見え、高いほど突拍子もない
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい