
#2 AIそのものが「パソコン本体」になる未来がやってきた
動画生成AIでOS不要のコンピュータを再現する「ニューラルコンピュータ」の挑戦
2026年4月16日
番組ノート
今回の論文
- タイトル: Neural Computers
- 著者: Mingchen Zhuge et al.(Meta AI / KAUST)
- 発表: 2026年4月
このエピソードのポイント
- AIモデルの内部状態だけでCPU・メモリ・画面表示をすべてまかなう「ニューラルコンピュータ」という新概念が提案された
- ターミナル版とデスクトップ版の2つのプロトタイプを構築し、操作に応じた画面変化の動画生成に成功した
- 算数の正答率が自力4%→ヒントあり83%と、「自分で考える」のではなく「教えてもらった答えを映す」段階であることも正直に示された
論文を読み解く
Overview
ひと言でいうと
ニューラルネットワーク(AI)そのものを「コンピュータ本体」として動かし、命令を受けて画面を生成・操作できる仕組みを提案・実証した研究。従来のように外部のOSやソフトウェアに頼るのではなく、 AIの内部状態だけで計算・記憶・入出力のすべてをまかなう 新しいコンピュータの形を目指している。
Background
背景
現在のAI活用は、大きく3つのパターンに分かれています。①従来のコンピュータ(プログラムを書いて動かす)、②AIエージェント(AIが既存のソフトやブラウザを「代わりに操作する」)、③ワールドモデル(環境の物理法則を学んで未来を予測する)。しかしいずれも、 実際にプログラムを動かす「実行環境」はAIの外側 にあります。AIは指示を出すだけで、本当の計算やメモリ管理はOSやハードウェアが担っています。この論文は「AIモデルの重み(学習済みパラメータ)そのものがコンピュータとして振る舞えないか?」という根本的な問いを立て、その第一歩を検証しています。
Novelty
何が新しいか
この研究では 「ニューラルコンピュータ(NC)」 という概念を定義しました。これはAIモデルの内部状態がCPU・メモリ・画面入出力のすべてを兼ねる、という大胆な発想です。
具体的な実装としては、最新の動画生成AI(Wan2.1)をベースに2種類のプロトタイプを構築しています。
- NCCLIGen:「ターミナル画面版」。テキスト命令と最初の1フレームを与えると、コマンド実行後の画面の動画を生成する
- NCGUIWorld:「デスクトップ画面版」。マウスクリックやキーボード入力の情報を与えると、その操作に応じた画面変化の動画を生成する
たとえるなら、 「本物のパソコンを動かさなくても、AIが画面の見た目と操作の結果を丸ごと"シミュレーション"する」 イメージです。学習データには、実際のターミナル操作の録画約1,100時間分や、デスクトップ操作の録画約1,500時間分を使っています。
Results
どんな結果が出たか
ターミナル版(CLI) では、学習6万ステップ後にOCR(文字認識)による文字精度が初期の 3% から 54% に向上し、行単位の完全一致も 31% に達しました。ただし算数の計算問題では正答率わずか 4% と、記号的な推論は苦手。ここで面白いのは、プロンプトに「答えは○○」というヒントを追加する「リプロンプティング」を行うと、正答率が 83% まで跳ね上がった点です。つまり、計算を自力でしているのではなく、 「正解を教えてもらえば正しく画面に描ける」 という性質が明らかになりました。
デスクトップ版(GUI) では、目的を持った操作データ(わずか110時間)が、ランダム操作データ(1,400時間)より圧倒的に高性能でした。また、カーソルの位置を座標だけで教えた場合は精度 8.7% でしたが、カーソル画像を直接見せる方式にすると 98.7% に達し、短い操作への応答は正確に学習できることが示されました。
Key Point
なぜ重要か
この研究が示唆するのは、 「コンピュータの概念そのものが変わるかもしれない」 という可能性です。
現在のAIエージェント(たとえばClaude Computer Useなど)は、既存のOSやブラウザを「操作する」立場です。あくまで人間の代わりにマウスやキーボードを動かしている。一方、ニューラルコンピュータは AI自身が「パソコンの中身」になる という発想です。
まだプロトタイプ段階ですが、もしこれが成熟すれば、たとえば自然言語で「こういう業務フローを組んで」と指示するだけで、AIが内部にその処理能力を"インストール"し、繰り返し使えるようになる世界が見えてきます。プログラミングが不要になるのではなく、 「日本語や英語がそのままプログラミング言語になる」 という方向性です。
ただし著者ら自身が認めるように、現時点では簡単な足し算すら自力では解けず、長時間安定した動作や機能の再利用もできていません。「完全なニューラルコンピュータ(CNC)」への道のりは、まだ相当に長いと考えられます。
From the Host
解説者ノート
個人的に最も印象的だったのは、算数の正答率が「自力 4% → ヒントあり 83% 」という結果です。これはつまり、今の動画生成AIは 「考えて答えを出す」のではなく「教えてもらった答えを正しく映す」 ことしかできていない、ということを正直に示しています。この誠実さが好印象でした。壮大なビジョン(AIがOS不要のコンピュータになる)と、現実の限界(足し算もできない)のギャップが面白く、だからこそ長期的にウォッチしたいテーマです。Schmidhuber教授が共著者という点にも、この分野の歴史的な文脈を感じます。
キーワード
ニューラルコンピュータ(NC)
AIモデルの内部状態だけで計算・記憶・入出力をすべてまかなう新しいコンピュータの概念
完全ニューラルコンピュータ(CNC)
NCの完成形。どんな計算もでき、自由にプログラムでき、明示的に変更しない限り動作が安定する理想像
ワールドモデル
環境の「物理法則」を学習して未来の状態を予測するAIモデル。ゲームやロボット制御でよく使われる
拡散モデル(Diffusion Model)
ノイズから画像や動画を段階的に生成するAI技術。最近の画像・動画生成AIの主流
リプロンプティング
AIへの指示文(プロンプト)をより詳しく書き直すことで、出力の質を上げるテクニック
チューリング完全
理論上どんな計算でもできる能力を持つこと。現代のパソコンはこの性質を持っている
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい