
#40 ゲームAIに「攻めて」と言うだけで動く時代
言葉でNPCの戦略を操る、新しいワールドモデルの仕組み
2026年5月19日
番組ノート
今回の論文
- タイトル: ReactiveGWM: Steering NPC in Reactive Game World Models
- 著者: Zeqing Wang, Danze Chen, Zhaohu Xing et al.(Tencent 他)
- 発表: 2026年5月(arXivプレプリント)
このエピソードのポイント
- AI生成のゲーム映像で、敵キャラに「攻めて」「守って」と言葉で戦略を指示できるようになった
- プレイヤー操作とNPCの戦略を別々の信号として扱う「役割分離」がカギ
- 学習した「戦略を理解する部品」だけ取り出して、別のゲームに差し込んでも動く(ゼロショット転移)
論文を読み解く
Overview
ひと言でいうと
AIで生成したゲーム映像の中で、敵キャラ(NPC)に「攻める」「守る」「距離を取る」といった戦略を言葉で指示できるようにした研究。しかも、その「戦略を理解する部品」だけ取り出して別のゲームに差し込んでも動く、というおまけ付き。
Background
背景
最近、AIが「ゲーム世界そのもの」を映像として生成する ワールドモデル(World Model) という技術が話題です。プレイヤーがボタンを押すと、その後のゲーム画面をAIが予測して描く——いわばニューラルネットがゲームエンジンになるイメージです。
ところが既存の手法には大きな弱点がありました。敵キャラ(NPC)が「背景の一部」として描かれているだけで、プレイヤーの行動に対して戦略的に反応してこないのです。映像としては動いていても、中身は「録画再生に近い」状態。これでは対戦ゲームとして成立しません。著者らは「これは本当のゲームエンジンではなく、ただの受動的な映像レンダラーだ」と問題提起しました。
Novelty
何が新しいか
著者らのアイデアは 「プレイヤー操作」と「NPCの戦略」を分けて扱う こと。料理に例えると、これまでは具材を全部一緒に煮込んでいたのを、別々の鍋で調理してから合わせる方式に変えました。
具体的には、AI内部の処理を2つに分業させます。
- プレイヤーのボタン入力 → 軽い「下駄を履かせる」ような信号として注入
- NPCの戦略(Offense=攻撃/Defense=防御/Control=距離調整) → クロスアテンションという「言葉を映像に紐付ける」仕組みで指示
学習データも工夫しました。従来は「プレイヤーがジャンプしてNPCがしゃがみ…」と全部混ぜて記述していたのを、NPCの行動と戦略だけを切り出した専用プロンプト に作り替えています。約1万本の対戦動画を VLM(画像も理解できるAI)で自動アノテーションして用意しました。
そして一番のサプライズが ゼロショット転移。あるゲームで学習した「戦略を理解するクロスアテンション部分」だけを取り出し、別のゲーム用に学習済みのモデルに差し込むだけで、追加学習なしにNPCを戦略的に動かせるのです。
Results
どんな結果が出たか
『ストリートファイターII』と『ストリートファイターα3』で検証しました。
- 戦略どおりにNPCが動くか:従来モデルは43%程度(ほぼ偶然レベル)だったのが、ReactiveGWMでは 75〜79% に向上。VLM審判による評価。
- プレイヤー操作の正確さ:単一アクションのテストでは ほぼ100% で、戦略制御を加えても操作性が落ちていない。
- 転移の効果:別ゲーム用モデルにクロスアテンションを差し込んだだけのバージョンでも、戦略適合率64〜74%を達成。
- 人間19人によるユーザー調査 でも、戦略の正解率は従来17〜44%に対し、提案手法は77〜86%に到達。
興味深いのは、戦略を制御するクロスアテンションの「信号エネルギー」が全体のわずか 0.71% しかないこと。少ない情報量でも、方向性さえ正しければNPCを動かせるという発見です。
Key Point
なぜ重要か
この研究の面白さは「AIゲーム生成」というニッチな話を超えて、生成AIの制御方法そのものに示唆を与えている点です。
ゲーム業界への直接的なインパクトとしては、NPCのAI設計コストを大幅に下げられる可能性 があります。従来は対戦相手のAIをルールやステートマシンで一から作り込む必要がありましたが、「攻めて」「守って」と言葉で指示するだけで挙動が変わるなら、開発工数も演出の幅も大きく変わります。さらに「学習部品が他のゲームに使い回せる」という性質は、IPを跨いだAI資産の流用という新しいビジネスを生む可能性があります。
より広い視点では、生成AIの「役割分離」というアイデア が他分野にも応用できそうです。たとえば動画広告生成で「商品の動き」と「背景の演出」を別々に制御する、業務シミュレーションで「ユーザー操作」と「他のエージェントの方針」を切り分ける——といった具合に。「全部まとめてプロンプトに書く」から「機能ごとに信号経路を分ける」への移行は、制御可能なAIを作る上での重要な設計思想と言えます。
ただし著者自身が認める通り、現状は2D格闘ゲーム限定で、推論速度もリアルタイムには届きません。「観賞できるAI」から「遊べるAI」への道はまだ途上です。
From the Host
解説者ノート
個人的に面白かったのは、戦略制御に使われている信号がエネルギー比でわずか0.71%しかないという分析です。「映像の見た目はほぼ元のまま、でも方向性だけ少し変える」というミニマルな介入で行動が変わるという発見は、生成AIを制御するときの哲学を示唆しているように感じました。一方で、ユーザー調査で「Control(距離を取る戦略)」だけは別ゲームに転移しにくいと判明している点も正直で好印象。ゲームごとに飛び道具の挙動が違うのが原因という考察も納得感があります。次は3Dゲームやリアルタイム実装に挑戦してほしいですね。
キーワード
ワールドモデル
現実やゲーム世界を「次に何が起きるか」予測できるAI。頭の中のシミュレーターのようなもの。
NPC
Non-Player Character。プレイヤーが操作しない、AIが動かすキャラクター。対戦ゲームでは相手CPUにあたる。
拡散モデル(Diffusion)
ノイズだらけの画像を少しずつきれいにしていく仕組みで、高品質な画像・動画を生成する現代のAIの主流技術。
クロスアテンション
テキストなど「外からの指示」を、画像生成の途中の情報と結びつける仕組み。今回はNPCの戦略を映像に反映させる役割。
ゼロショット転移
新しい状況のために追加学習しなくても、既存の知識をそのまま使えること。
プレイヤー中心モデル
プレイヤー目線でしか世界を記述しないAI。敵の動きまで一括で説明してしまうため、敵を独立に制御できない。
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい