
#3 AIはサイコロを振れない?LLMの「ランダムのフリ」の正体
ChatGPTやGeminiに「ランダムに選んで」と頼んでも、実は全然ランダムじゃなかった
2026年4月17日
番組ノート
今回の論文
- タイトル: The Illusion of Stochasticity in LLMs
- 著者: Xiangming Gu et al.(Google DeepMind / シンガポール国立大学)
- 発表: 2026年4月(プレプリント)
このエピソードのポイント
- LLMに「ランダムな数を出して」と頼むと、どのモデルでもめちゃくちゃ偏る(7や42ばかり出てくる!)
- 外部から乱数を渡して「これを変換して」と頼むと、ちゃんと正確にできる。問題は乱数を"生み出す"こと自体にある
- AIエージェントを実用化するなら「ランダム性は外から注入する」という設計がカギになりそう
論文を読み解く
Overview
ひと言でいうと
ChatGPTやGeminiなどの大規模言語モデル(LLM)は、「0から9の数字をランダムに選んで」と頼まれても まったくランダムに選べない ことを、複数のモデル・複数の分布で徹底的に実証した研究。ただし「外部から乱数を渡せば正しく変換できる」ことも示しており、問題は 乱数を"生み出す"こと自体 にあると突き止めた。
Background
背景
LLMをゲームや自律エージェント(自分で判断して行動するAI)として使う場面が増えています。こうしたタスクでは「最善手がわかっていても、あえてランダムに行動する」ことが重要になります。たとえば探索・学習のためにいろんな手を試したり、じゃんけんで手を読まれないようにしたり。ところが、LLMが正しい戦略を 理解 していても、それを 実行に移せない 「知っているのにできないギャップ」が報告されてきました。本研究はその原因の一つが「LLMはそもそもランダムな数を生成できない」という根本的な欠陥にあるのではないか、と問いかけています。
Novelty
何が新しいか
研究チームは、Gemini、Qwen3、OLMOなど複数のモデルファミリーに「0〜9の整数を等確率で選んで」「正規分布(ガウス分布)に従う数を出して」といった単純な指示を出し、それを1,024回繰り返して結果の偏りを統計検定で厳密に測定しました。
面白いのは、失敗の原因を切り分けるために 3つのアプローチ を比較した点です。①普通に「ランダムな数を出して」と頼む、②過去の出力履歴を見せながら順番に出させる、③外部から「0〜1の乱数」を渡して「これを使って目的の分布に変換して」と頼む。①と②はほぼ全滅でしたが、③では驚くほど正確な結果が出ました。つまりLLMは 「分布の変換」という計算はできるのに、「ランダムな数を自分で生み出す」ことができない 。ランダムに見える出力は、訓練データの偏りや文章の位置に引きずられた "見せかけのランダム" にすぎなかったのです。
Results
どんな結果が出たか
統計的適合度検定(データが理論通りの分布に従っているかを判定するテスト)を行ったところ、すべてのモデル・すべての分布で p値がほぼゼロ でした。これは「この出力が本当にランダムである確率は限りなくゼロに近い」ことを意味します。たとえばQwen3-8Bに0〜9の一様分布を頼むと「7」に極端に偏り、1〜100では「42」ばかり出てきます。温度パラメータ(出力のバラつきを調整する設定)を変えても、思考の連鎖(Chain-of-Thought)をオフにしても、より大きなモデルを使っても改善しませんでした。一方、外部から一様乱数を渡して変換させる方法では、モデルサイズが 40億パラメータ以上 になると統計検定をパスする正確な出力が得られ、モデルの推論能力に応じた 創発的な性質 も確認されました。
Key Point
なぜ重要か
この問題は意外と身近なところに影響します。論文が挙げる象徴的な例が 「4択問題の自動生成」 です。Geminiに4択クイズを作らせると、正解の選択肢が「C」に集中してしまいました。これではカンニング対策になりません。同様に、LLMを使った商品レコメンドの多様化、A/Bテストの自動設計、ゲームAIの予測不能な行動など、「偏りなくバラけた選択」が求められるあらゆる場面でリスクがあります。
ビジネス的に重要なのは、 「外から乱数を渡してあげれば正確に使える」 という発見です。つまり、LLMに乱数生成を任せるのではなく、システム側で乱数を生成してLLMに渡す設計にすれば、この問題は回避できる可能性があります。LLMをエージェントとして本番投入する際には、「ランダム性の供給元」を外部に持つアーキテクチャが重要になるでしょう。
From the Host
解説者ノート
個人的に一番面白かったのは、LLMの思考トレース(考えている過程の記録)の中で「各数字は1/10の確率で選ばれるべきだ」と 完璧に説明した直後に「7」を選ぶ という、まさに「分かっているのにできない」場面です。また、Qwen3-8Bが思考モードをオフにすると1〜100の中から 42しか出さなくなる のは、『銀河ヒッチハイク・ガイド』の「究極の答え」が訓練データに刻まれている証拠のようで、思わず笑ってしまいました。LLMエージェントの実用化において、「乱数は外から注入する」という設計指針は今後スタンダードになりそうです。
キーワード
確率分布からのサンプリング
「サイコロを振る」ように、決められた確率のルールに従ってランダムに値を選ぶこと
一様分布(Uniform Distribution)
どの値も同じ確率で出る分布。公平なサイコロのイメージ
ガウス分布(Gaussian Distribution)
平均値の周辺に多く集まり、離れるほど少なくなる釣り鐘型の分布。身長や体重の分布が典型例
適合度検定(Goodness-of-fit Test)
実際のデータが理論上の分布とどれくらい合っているかを数学的に判定する方法
疑似乱数生成器(PRNG)
計算式で「ランダムっぽい」数列を作る仕組み。完全なランダムではないが、実用上は十分ランダムに見える
knowing-doing gap
正しい答えを「知っている」のに、行動として「実行できない」ギャップ。人間にもある現象
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい