放課後論文ラジオ
放課後論文ラジオ
EP.012

#12 AIはまだゲーム初心者にも勝てない

34ゲーム170タスクで測る、マルチモーダルAIの本当の実力

2026年4月19日

番組ノート

今回の論文

  • タイトル: GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents
  • 著者: Mingyu Ouyang et al.(シンガポール国立大学・オックスフォード大学)
  • 発表: 2026年4月

このエピソードのポイント

  • ブラウザで遊べる34種類のゲーム・170タスクで、最新AI18種を同じ条件で評価する仕組みを作った
  • トップのGemini-3でもタスク進捗41.9%・クリア率21.2%で、人間の初心者(進捗64.1%)にすら届かない
  • 「記憶を増やすほど賢くなる」とは限らず、操作履歴がノイズになってAIの性能が落ちる現象も発見
#放課後論文ラジオ#AI#機械学習#AIエージェント#マルチモーダルAI#ゲームAI#ベンチマーク#ComputerUse

論文を読み解く

Overview

ひと言でいうと

ブラウザ上で遊べる34種類のゲームと170のタスクを使って、最新のマルチモーダルAIが「本当にゲームをプレイできるのか」を公平かつ再現可能に測定する評価基盤を構築した研究。結論として、現状トップのAIでもゲーム初心者の人間にすら大きく及ばないことが明らかになった。

Background

背景

ChatGPTやClaudeに代表されるマルチモーダルAI(画像も理解できるAI)は、静止画の質問応答なら得意になってきました。しかし「画面を見ながら操作し、ミスを挽回しながら長時間プレイする」という能力は、実世界で働くAIエージェントに不可欠にもかかわらず、うまく測れていませんでした。

既存のゲーム評価にはいくつか問題がありました。(1) AIごとに操作インターフェースがバラバラ(あるAIは「座標(x,y)をクリック」、別のAIは「右に進む」というレベルで出力)、(2) 推論に2秒かかるモデルは、その間にキャラが穴に落ちてしまい「頭の良さ」ではなく「反応速度」で差がついてしまう、(3) 成否の判定がOCRや別のAIによる曖昧な判断に頼っており、結果が再現しにくい——といった問題です。

Novelty

何が新しいか

GameWorldは3つの工夫でこれを解決しました。

①「ゲームを一時停止できるサンドボックス」​:AIが考えている間、ゲーム側を止められる仕組み。これによって「反応の速さ」ではなく「判断の質」だけを純粋に測れます。逆に実際の遅延も測りたい時は停止しないモードも用意。

② 2種類のインターフェースを共通の土俵に乗せる:キーボード・マウスを直接操作する「コンピュータ操作型(CUA)」と、「右に移動」「ジャンプ」のような意味単位で動く「汎用型」を、共通の原子イベント(マウス移動、キー押下など)に翻訳する仕組みを作りました。これによりGPT-5とClaude、Geminiなど異なるAIを同じ条件で比較できます。

③ ゲーム内部の状態から直接スコアを読み取る:従来は画面を画像認識してスコアを推定していましたが、GameWorldはゲームのJavaScript内部変数(コイン数、進行度、残機など233項目)を直接取得。「なんとなく成功っぽい」ではなく、機械的に正解・不正解が決まります。

Results

どんな結果が出たか

34ゲーム・170タスクで、GPT-5.2、Claude-Sonnet-4.6、Gemini-3、Qwen3-VLなど18通りのAIを評価した結果、​最高性能のGemini-3-Flash-Previewでもタスクの進捗度は 41.9%、完全クリア率は 21.2% にとどまりました。

対して人間は、ルールも知らない初心者でも進捗度 64.1%・クリア率 55.3%、熟練者は 82.6%・77.1% を達成。​AIと人間初心者の間にすら大きなギャップがある ことが分かります。

また、ゲームの種類別に見ると、AIは「パズル的な戦略思考」や「即時反応系」は比較的得意なものの、​タイミングの基礎制御、空間ナビゲーション、長期的な目標管理 が苦手。特にMinecraftのような資源収集ゲームでは「惜しいところまで行くが最後まで詰め切れない」という失敗パターンが頻発しました。

Key Point

なぜ重要か

この研究が示しているのは、「文章を書いたり画像を説明したりは得意なAIでも、​画面を見て判断し、操作し、失敗を修正しながら目標達成する 能力はまだ人間初心者以下」という現実です。

これは、RPA(業務自動化)、カスタマーサポートの自動画面操作、自律型PC操作エージェント(いわゆる「コンピュータを使うAI」)のビジネス応用に直結します。OpenAIやAnthropicが進める「Computer Use」系の機能は、まさにこの「画面を見て操作する」能力が鍵で、GameWorldはそれを残酷なまでに正直に測る物差しになります。

また興味深いのは、​​「記憶を長く持たせると、汎用型AIはやや賢くなるが、低レベル操作型AIは逆に性能が落ちる」​ という発見。過去の操作履歴が意味情報なしで溜まっていくと、かえってノイズになるのです。これはAIエージェント設計において「記憶は多ければ多いほど良い」という素朴な想定に警鐘を鳴らします。企業がAIエージェントを導入する際、どのインターフェース設計を選ぶかで最適なアーキテクチャが変わることを示唆しています。

From the Host

解説者ノート

個人的に面白かったのは、「ゲームを一時停止してAIに考えさせる」という割り切りです。これで「頭脳」と「反射神経」を分離して測れるようになった。裏を返せば、現在のAIは止まっててくれないとまともにゲームができないということでもあり、ちょっと切ない。特に印象的なのは、記憶量を増やすとCUA型の性能がむしろ下がる現象。「意味を持たない操作履歴はノイズになる」という指摘は、AIエージェント全般の設計思想に効いてくる話で、今後の改善方向として注目したいです。

キーワード

マルチモーダルLLM

文章だけでなく画像も同時に理解できるAI。GPT-5やGemini、Claudeなど

Computer-Use Agent (CUA)

「座標(480,300)をクリック」のように、人間と同じレベルでマウス・キーボードを操作するAI

汎用型エージェント

「敵をよける」「ジャンプ」のような意味単位で指示を出すAI。座標計算は別システムが担当

Semantic Action Parsing

「ジャンプ」のような意味的指示を、実際のキー入力(スペースキー)に機械的に変換する仕組み

状態検証型評価

ゲーム内部のデータを直接読んで成否判定する方式。画面認識の曖昧さを排除できる

進捗度(Progress)

タスクを完全クリアしなくても「どこまで近づいたか」を0〜1で示す指標

論文情報

2604 07429

トランスクリプト

K

かなで

はじまりました、放課後論文ラジオです。
Y

ゆい

ゆいです!
K

かなで

かなでです。
Y

ゆい

この番組は、むずかしいAI論文を2人でゆるくかみ砕いてお届けしてるよ!
K

かなで

よろしくお願いします。
Y

ゆい

ねえねえ、かなで先輩、聞いてよ。

EP.012|#12 AIはまだゲーム初心者にも勝てない