
#21 AIは世界をどこまで理解しているか
予測者・シミュレーター・進化者の3段階で測るAIの実力
2026年4月28日
番組ノート
今回の論文
- タイトル: Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond
- 著者: Meng Chu et al.(香港科技大学、シンガポール国立大学、オックスフォード大学ほか)
- 発表: 2026年4月(arXiv プレプリント)
このエピソードのポイント
- AIの「世界を理解する力」を、予測者・シミュレーター・進化者という3つのレベルで整理した
- 物理・デジタル・社会・科学の4領域でAIの成熟度を比較すると、科学領域が最先端で社会領域が最も難しいことが分かった
- 動画生成が綺麗でも「行動を変えたら未来も変わるか」というテストでは脆い。ビジネスでAIを選ぶときの新しい物差しになる
論文を読み解く
Overview
ひと言でいうと
AIエージェントが「世界をどこまで理解しているか」を測るための共通言語として、能力を3段階(予測者・シミュレーター・進化者)×4つの世界の法則(物理・デジタル・社会・科学)で整理し、400本以上の論文を一望する地図を提示した研究。
Background
背景
「ワールドモデル(世界モデル)」という言葉は今や流行語になっていますが、研究分野ごとに意味がバラバラです。コンピュータビジョン研究者は「リアルな動画を生成できるか」で評価し、強化学習の研究者は「タスクの成功率が上がるか」で評価する。同じ言葉なのに、優劣を比較できないという混乱が起きています。
さらに、AIが「テキストを生成する」段階から「目標を達成するために環境と相互作用する」段階に進むにつれて、エージェントが頭の中で「次に何が起きるか」を予測する能力(=ワールドモデル)が決定的に重要になってきました。本論文は、分断されたコミュニティを橋渡しする共通の枠組みを提示することを目的としています。
Novelty
何が新しいか
著者らは「能力レベル × 法則の領域」という2軸の分類体系を提案しています。
能力の3段階(縦軸):
- L1 予測者(Predictor): 「次の一歩」を予測できる。今の状態と行動から、すぐ後の状態を当てる
- L2 シミュレーター(Simulator): 何手も先までシミュレートでき、「もし違う行動をとったら?」という反実仮想にも答えられる。物理法則やルールを破らない
- L3 進化者(Evolver): 自分の予測が外れたとき、モデル自体を作り直す。実験を設計し、証拠を集めて自分を更新する
4つの世界の法則(横軸):
- 物理世界(重力、衝突、運動)
- デジタル世界(API、UI状態、プログラム仕様)
- 社会世界(信念、規範、約束)
- 科学世界(未知の因果メカニズム)
ポイントは、これらが「製品の種類」ではなく「同じシステムが状況に応じて使い分ける能力の段階」だと位置づけたこと。例えば自動運転車は、瞬時の認識ではL1、進路計画ではL2、新環境への適応ではL3を使う、というイメージです。
Results
どんな結果が出たか
これは新手法の論文ではなく、400本以上の研究を整理した「地図」です。著者らは70以上の代表的システム(Sora、DreamerV3、MuZero、AI Scientist、A-Lab、GraphCastなど)を2018〜2026年のタイムラインに配置し、能力レベルと領域でマッピングしました。
その結果、興味深いパターンが見えてきました。L3(自己進化)が最も成熟しているのは科学領域(自律実験ロボット A-Lab は17日間で353実験を実行し36の新化合物を発見)であり、社会領域は最も未成熟です(倫理的制約と帰責の難しさが理由)。また、Soraのような動画生成モデルは見た目が美しくてもL2の「介入感度」(行動を変えると未来も変わる)テストでは脆弱なことが指摘されています。
Key Point
なぜ重要か
この研究の価値は、ビジネスでAIを評価するときの「物差し」を提供することにあります。
例えば「最新のワールドモデルを業務に導入したい」と考えたとき、ベンダーが見せるデモが綺麗でも、それがL1止まり(一歩先しか読めない)なのか、L2(計画に使える)なのか、L3(運用しながら自己改善する)なのかで投資判断は全く変わります。著者らは「映像のリアルさ」より「行動を変えたら未来が変わるか」「ルール違反を起こさないか」を測るべきだと主張しています。
また、業界横断の視点も実用的です。Webエージェント、コーディングAI、ロボット、創薬AIは、別々の分野に見えて、実は同じ「世界をモデル化する」課題を抱えている。ある分野で発見された解決策(例:科学領域での自律実験ループ)が、別分野(例:ソフトウェア自動修復)に応用できる可能性が見えてきます。「自社のAI投資が、AI業界全体の能力進化のどこに位置するか」を判断するための共通座標として機能する研究です。
From the Host
解説者ノート
個人的に最も興味深かったのは、L3の成熟度が領域によって極端に違う点です。科学領域では既にロボットが論文を書きピアレビューを通過する段階(AI Scientist v2)にあるのに、社会領域では「他人の心を読み続ける」ことすら覚束ない。AIの進歩は均質ではなく、フィードバックの速さと検証の容易さに強く依存することがよく分かります。一方で、これはサーベイ論文なので「分類が便利だ」と主張するだけで、提案された分類が現実の開発にどれほど有用かは今後の検証次第。L2とL3の境界を実際にどう測るかという評価ベンチマークの整備が次の焦点になりそうです。
キーワード
ワールドモデル
AIが頭の中に持つ「世界の縮図」。次に何が起きるかを予測するための内部シミュレーター
エージェント
目標を達成するために自律的に行動するAI。ワールドモデルを使って計画を立てる
ロールアウト
「もしこう行動したら、こうなって、その次はこうなる…」と複数手先まで頭の中で展開すること
反実仮想
「もし違う選択をしていたら?」という仮定の問い。L2以上のシミュレーターには必須の能力
POMDP
部分観測マルコフ決定過程。世界の全てが見えない状況下でAIが意思決定する数学的枠組み
自律実験ループ
AIが仮説を立て、実験を設計し、結果を見て自分のモデルを更新するサイクル。L3の核心
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい