EP.012

#12 AIはまだゲーム初心者にも勝てない

34ゲーム170タスクで測る、マルチモーダルAIの本当の実力

2026年4月19日

RSS

番組ノート

今回の論文

タイトル: GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents
著者: Mingyu Ouyang et al.（シンガポール国立大学・オックスフォード大学）
発表: 2026年4月

このエピソードのポイント

ブラウザで遊べる34種類のゲーム・170タスクで、最新AI18種を同じ条件で評価する仕組みを作った
トップのGemini-3でもタスク進捗41.9%・クリア率21.2%で、人間の初心者（進捗64.1%）にすら届かない
「記憶を増やすほど賢くなる」とは限らず、操作履歴がノイズになってAIの性能が落ちる現象も発見

#放課後論文ラジオ#AI#機械学習#AIエージェント#マルチモーダルAI#ゲームAI#ベンチマーク#ComputerUse

論文を読み解く

Overview

ひと言でいうと

ブラウザ上で遊べる34種類のゲームと170のタスクを使って、最新のマルチモーダルAIが「本当にゲームをプレイできるのか」を公平かつ再現可能に測定する評価基盤を構築した研究。結論として、現状トップのAIでもゲーム初心者の人間にすら大きく及ばないことが明らかになった。

Background

背景

ChatGPTやClaudeに代表されるマルチモーダルAI（画像も理解できるAI）は、静止画の質問応答なら得意になってきました。しかし「画面を見ながら操作し、ミスを挽回しながら長時間プレイする」という能力は、実世界で働くAIエージェントに不可欠にもかかわらず、うまく測れていませんでした。

既存のゲーム評価にはいくつか問題がありました。(1) AIごとに操作インターフェースがバラバラ（あるAIは「座標(x,y)をクリック」、別のAIは「右に進む」というレベルで出力）、(2) 推論に2秒かかるモデルは、その間にキャラが穴に落ちてしまい「頭の良さ」ではなく「反応速度」で差がついてしまう、(3) 成否の判定がOCRや別のAIによる曖昧な判断に頼っており、結果が再現しにくい——といった問題です。

Novelty

何が新しいか

GameWorldは3つの工夫でこれを解決しました。

①「ゲームを一時停止できるサンドボックス」：AIが考えている間、ゲーム側を止められる仕組み。これによって「反応の速さ」ではなく「判断の質」だけを純粋に測れます。逆に実際の遅延も測りたい時は停止しないモードも用意。

② 2種類のインターフェースを共通の土俵に乗せる：キーボード・マウスを直接操作する「コンピュータ操作型（CUA）」と、「右に移動」「ジャンプ」のような意味単位で動く「汎用型」を、共通の原子イベント（マウス移動、キー押下など）に翻訳する仕組みを作りました。これによりGPT-5とClaude、Geminiなど異なるAIを同じ条件で比較できます。

③ ゲーム内部の状態から直接スコアを読み取る：従来は画面を画像認識してスコアを推定していましたが、GameWorldはゲームのJavaScript内部変数（コイン数、進行度、残機など233項目）を直接取得。「なんとなく成功っぽい」ではなく、機械的に正解・不正解が決まります。

Results

どんな結果が出たか

34ゲーム・170タスクで、GPT-5.2、Claude-Sonnet-4.6、Gemini-3、Qwen3-VLなど18通りのAIを評価した結果、最高性能のGemini-3-Flash-Previewでもタスクの進捗度は 41.9%、完全クリア率は 21.2% にとどまりました。

対して人間は、ルールも知らない初心者でも進捗度 64.1%・クリア率 55.3%、熟練者は 82.6%・77.1% を達成。AIと人間初心者の間にすら大きなギャップがある ことが分かります。

また、ゲームの種類別に見ると、AIは「パズル的な戦略思考」や「即時反応系」は比較的得意なものの、タイミングの基礎制御、空間ナビゲーション、長期的な目標管理 が苦手。特にMinecraftのような資源収集ゲームでは「惜しいところまで行くが最後まで詰め切れない」という失敗パターンが頻発しました。

Key Point

なぜ重要か

この研究が示しているのは、「文章を書いたり画像を説明したりは得意なAIでも、画面を見て判断し、操作し、失敗を修正しながら目標達成する 能力はまだ人間初心者以下」という現実です。

これは、RPA（業務自動化）、カスタマーサポートの自動画面操作、自律型PC操作エージェント（いわゆる「コンピュータを使うAI」）のビジネス応用に直結します。OpenAIやAnthropicが進める「Computer Use」系の機能は、まさにこの「画面を見て操作する」能力が鍵で、GameWorldはそれを残酷なまでに正直に測る物差しになります。

また興味深いのは、「記憶を長く持たせると、汎用型AIはやや賢くなるが、低レベル操作型AIは逆に性能が落ちる」 という発見。過去の操作履歴が意味情報なしで溜まっていくと、かえってノイズになるのです。これはAIエージェント設計において「記憶は多ければ多いほど良い」という素朴な想定に警鐘を鳴らします。企業がAIエージェントを導入する際、どのインターフェース設計を選ぶかで最適なアーキテクチャが変わることを示唆しています。

From the Host

解説者ノート

個人的に面白かったのは、「ゲームを一時停止してAIに考えさせる」という割り切りです。これで「頭脳」と「反射神経」を分離して測れるようになった。裏を返せば、現在のAIは止まっててくれないとまともにゲームができないということでもあり、ちょっと切ない。特に印象的なのは、記憶量を増やすとCUA型の性能がむしろ下がる現象。「意味を持たない操作履歴はノイズになる」という指摘は、AIエージェント全般の設計思想に効いてくる話で、今後の改善方向として注目したいです。

キーワード

マルチモーダルLLM

文章だけでなく画像も同時に理解できるAI。GPT-5やGemini、Claudeなど

Computer-Use Agent (CUA)

「座標(480,300)をクリック」のように、人間と同じレベルでマウス・キーボードを操作するAI

汎用型エージェント

「敵をよける」「ジャンプ」のような意味単位で指示を出すAI。座標計算は別システムが担当

Semantic Action Parsing

「ジャンプ」のような意味的指示を、実際のキー入力（スペースキー）に機械的に変換する仕組み

状態検証型評価

ゲーム内部のデータを直接読んで成否判定する方式。画面認識の曖昧さを排除できる

進捗度（Progress）

タスクを完全クリアしなくても「どこまで近づいたか」を0〜1で示す指標

論文情報

2604 07429

arXivで読む alphaXivで読む

トランスクリプト

かなで

はじまりました、放課後論文ラジオです。

ゆい

ゆいです！

かなで

かなでです。

ゆい

この番組は、むずかしいAI論文を2人でゆるくかみ砕いてお届けしてるよ！

かなで

よろしくお願いします。

ゆい

ねえねえ、かなで先輩、聞いてよ。

←前のエピソード

EP.011 #11 AIに「採点理由」を語らせたら画像生成が激変した

次のエピソード→

EP.013 #13 AIへのヒントは「短く的確」が最強だった

EP.012|#12 AIはまだゲーム初心者にも勝てない

--:--/--:--