
#12 AIはまだゲーム初心者にも勝てない
34ゲーム170タスクで測る、マルチモーダルAIの本当の実力
2026年4月19日
番組ノート
今回の論文
- タイトル: GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents
- 著者: Mingyu Ouyang et al.(シンガポール国立大学・オックスフォード大学)
- 発表: 2026年4月
このエピソードのポイント
- ブラウザで遊べる34種類のゲーム・170タスクで、最新AI18種を同じ条件で評価する仕組みを作った
- トップのGemini-3でもタスク進捗41.9%・クリア率21.2%で、人間の初心者(進捗64.1%)にすら届かない
- 「記憶を増やすほど賢くなる」とは限らず、操作履歴がノイズになってAIの性能が落ちる現象も発見
論文を読み解く
Overview
ひと言でいうと
ブラウザ上で遊べる34種類のゲームと170のタスクを使って、最新のマルチモーダルAIが「本当にゲームをプレイできるのか」を公平かつ再現可能に測定する評価基盤を構築した研究。結論として、現状トップのAIでもゲーム初心者の人間にすら大きく及ばないことが明らかになった。
Background
背景
ChatGPTやClaudeに代表されるマルチモーダルAI(画像も理解できるAI)は、静止画の質問応答なら得意になってきました。しかし「画面を見ながら操作し、ミスを挽回しながら長時間プレイする」という能力は、実世界で働くAIエージェントに不可欠にもかかわらず、うまく測れていませんでした。
既存のゲーム評価にはいくつか問題がありました。(1) AIごとに操作インターフェースがバラバラ(あるAIは「座標(x,y)をクリック」、別のAIは「右に進む」というレベルで出力)、(2) 推論に2秒かかるモデルは、その間にキャラが穴に落ちてしまい「頭の良さ」ではなく「反応速度」で差がついてしまう、(3) 成否の判定がOCRや別のAIによる曖昧な判断に頼っており、結果が再現しにくい——といった問題です。
Novelty
何が新しいか
GameWorldは3つの工夫でこれを解決しました。
①「ゲームを一時停止できるサンドボックス」:AIが考えている間、ゲーム側を止められる仕組み。これによって「反応の速さ」ではなく「判断の質」だけを純粋に測れます。逆に実際の遅延も測りたい時は停止しないモードも用意。
② 2種類のインターフェースを共通の土俵に乗せる:キーボード・マウスを直接操作する「コンピュータ操作型(CUA)」と、「右に移動」「ジャンプ」のような意味単位で動く「汎用型」を、共通の原子イベント(マウス移動、キー押下など)に翻訳する仕組みを作りました。これによりGPT-5とClaude、Geminiなど異なるAIを同じ条件で比較できます。
③ ゲーム内部の状態から直接スコアを読み取る:従来は画面を画像認識してスコアを推定していましたが、GameWorldはゲームのJavaScript内部変数(コイン数、進行度、残機など233項目)を直接取得。「なんとなく成功っぽい」ではなく、機械的に正解・不正解が決まります。
Results
どんな結果が出たか
34ゲーム・170タスクで、GPT-5.2、Claude-Sonnet-4.6、Gemini-3、Qwen3-VLなど18通りのAIを評価した結果、最高性能のGemini-3-Flash-Previewでもタスクの進捗度は 41.9%、完全クリア率は 21.2% にとどまりました。
対して人間は、ルールも知らない初心者でも進捗度 64.1%・クリア率 55.3%、熟練者は 82.6%・77.1% を達成。AIと人間初心者の間にすら大きなギャップがある ことが分かります。
また、ゲームの種類別に見ると、AIは「パズル的な戦略思考」や「即時反応系」は比較的得意なものの、タイミングの基礎制御、空間ナビゲーション、長期的な目標管理 が苦手。特にMinecraftのような資源収集ゲームでは「惜しいところまで行くが最後まで詰め切れない」という失敗パターンが頻発しました。
Key Point
なぜ重要か
この研究が示しているのは、「文章を書いたり画像を説明したりは得意なAIでも、画面を見て判断し、操作し、失敗を修正しながら目標達成する 能力はまだ人間初心者以下」という現実です。
これは、RPA(業務自動化)、カスタマーサポートの自動画面操作、自律型PC操作エージェント(いわゆる「コンピュータを使うAI」)のビジネス応用に直結します。OpenAIやAnthropicが進める「Computer Use」系の機能は、まさにこの「画面を見て操作する」能力が鍵で、GameWorldはそれを残酷なまでに正直に測る物差しになります。
また興味深いのは、「記憶を長く持たせると、汎用型AIはやや賢くなるが、低レベル操作型AIは逆に性能が落ちる」 という発見。過去の操作履歴が意味情報なしで溜まっていくと、かえってノイズになるのです。これはAIエージェント設計において「記憶は多ければ多いほど良い」という素朴な想定に警鐘を鳴らします。企業がAIエージェントを導入する際、どのインターフェース設計を選ぶかで最適なアーキテクチャが変わることを示唆しています。
From the Host
解説者ノート
個人的に面白かったのは、「ゲームを一時停止してAIに考えさせる」という割り切りです。これで「頭脳」と「反射神経」を分離して測れるようになった。裏を返せば、現在のAIは止まっててくれないとまともにゲームができないということでもあり、ちょっと切ない。特に印象的なのは、記憶量を増やすとCUA型の性能がむしろ下がる現象。「意味を持たない操作履歴はノイズになる」という指摘は、AIエージェント全般の設計思想に効いてくる話で、今後の改善方向として注目したいです。
キーワード
マルチモーダルLLM
文章だけでなく画像も同時に理解できるAI。GPT-5やGemini、Claudeなど
Computer-Use Agent (CUA)
「座標(480,300)をクリック」のように、人間と同じレベルでマウス・キーボードを操作するAI
汎用型エージェント
「敵をよける」「ジャンプ」のような意味単位で指示を出すAI。座標計算は別システムが担当
Semantic Action Parsing
「ジャンプ」のような意味的指示を、実際のキー入力(スペースキー)に機械的に変換する仕組み
状態検証型評価
ゲーム内部のデータを直接読んで成否判定する方式。画面認識の曖昧さを排除できる
進捗度(Progress)
タスクを完全クリアしなくても「どこまで近づいたか」を0〜1で示す指標
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい