EP.002

#2 AIそのものが「パソコン本体」になる未来がやってきた

動画生成AIでOS不要のコンピュータを再現する「ニューラルコンピュータ」の挑戦

2026年4月16日

RSS

番組ノート

今回の論文

タイトル: Neural Computers
著者: Mingchen Zhuge et al.（Meta AI / KAUST）
発表: 2026年4月

このエピソードのポイント

AIモデルの内部状態だけでCPU・メモリ・画面表示をすべてまかなう「ニューラルコンピュータ」という新概念が提案された
ターミナル版とデスクトップ版の2つのプロトタイプを構築し、操作に応じた画面変化の動画生成に成功した
算数の正答率が自力4%→ヒントあり83%と、「自分で考える」のではなく「教えてもらった答えを映す」段階であることも正直に示された

#放課後論文ラジオ#AI#機械学習#ニューラルコンピュータ#動画生成AI#拡散モデル#AIエージェント

論文を読み解く

Overview

ひと言でいうと

ニューラルネットワーク（AI）そのものを「コンピュータ本体」として動かし、命令を受けて画面を生成・操作できる仕組みを提案・実証した研究。従来のように外部のOSやソフトウェアに頼るのではなく、 AIの内部状態だけで計算・記憶・入出力のすべてをまかなう 新しいコンピュータの形を目指している。

Background

背景

現在のAI活用は、大きく3つのパターンに分かれています。①従来のコンピュータ（プログラムを書いて動かす）、②AIエージェント（AIが既存のソフトやブラウザを「代わりに操作する」）、③ワールドモデル（環境の物理法則を学んで未来を予測する）。しかしいずれも、 実際にプログラムを動かす「実行環境」はAIの外側 にあります。AIは指示を出すだけで、本当の計算やメモリ管理はOSやハードウェアが担っています。この論文は「AIモデルの重み（学習済みパラメータ）そのものがコンピュータとして振る舞えないか？」という根本的な問いを立て、その第一歩を検証しています。

Novelty

何が新しいか

この研究では 「ニューラルコンピュータ（NC）」 という概念を定義しました。これはAIモデルの内部状態がCPU・メモリ・画面入出力のすべてを兼ねる、という大胆な発想です。

具体的な実装としては、最新の動画生成AI（Wan2.1）をベースに2種類のプロトタイプを構築しています。

NCCLIGen：「ターミナル画面版」。テキスト命令と最初の1フレームを与えると、コマンド実行後の画面の動画を生成する
NCGUIWorld：「デスクトップ画面版」。マウスクリックやキーボード入力の情報を与えると、その操作に応じた画面変化の動画を生成する

たとえるなら、 「本物のパソコンを動かさなくても、AIが画面の見た目と操作の結果を丸ごと"シミュレーション"する」 イメージです。学習データには、実際のターミナル操作の録画約1,100時間分や、デスクトップ操作の録画約1,500時間分を使っています。

Results

どんな結果が出たか

ターミナル版（CLI） では、学習6万ステップ後にOCR（文字認識）による文字精度が初期の 3% から 54% に向上し、行単位の完全一致も 31% に達しました。ただし算数の計算問題では正答率わずか 4% と、記号的な推論は苦手。ここで面白いのは、プロンプトに「答えは○○」というヒントを追加する「リプロンプティング」を行うと、正答率が 83% まで跳ね上がった点です。つまり、計算を自力でしているのではなく、 「正解を教えてもらえば正しく画面に描ける」 という性質が明らかになりました。

デスクトップ版（GUI） では、目的を持った操作データ（わずか110時間）が、ランダム操作データ（1,400時間）より圧倒的に高性能でした。また、カーソルの位置を座標だけで教えた場合は精度 8.7% でしたが、カーソル画像を直接見せる方式にすると 98.7% に達し、短い操作への応答は正確に学習できることが示されました。

Key Point

なぜ重要か

この研究が示唆するのは、 「コンピュータの概念そのものが変わるかもしれない」 という可能性です。

現在のAIエージェント（たとえばClaude Computer Useなど）は、既存のOSやブラウザを「操作する」立場です。あくまで人間の代わりにマウスやキーボードを動かしている。一方、ニューラルコンピュータは AI自身が「パソコンの中身」になる という発想です。

まだプロトタイプ段階ですが、もしこれが成熟すれば、たとえば自然言語で「こういう業務フローを組んで」と指示するだけで、AIが内部にその処理能力を"インストール"し、繰り返し使えるようになる世界が見えてきます。プログラミングが不要になるのではなく、 「日本語や英語がそのままプログラミング言語になる」 という方向性です。

ただし著者ら自身が認めるように、現時点では簡単な足し算すら自力では解けず、長時間安定した動作や機能の再利用もできていません。「完全なニューラルコンピュータ（CNC）」への道のりは、まだ相当に長いと考えられます。

From the Host

解説者ノート

個人的に最も印象的だったのは、算数の正答率が「自力 4% → ヒントあり 83% 」という結果です。これはつまり、今の動画生成AIは 「考えて答えを出す」のではなく「教えてもらった答えを正しく映す」 ことしかできていない、ということを正直に示しています。この誠実さが好印象でした。壮大なビジョン（AIがOS不要のコンピュータになる）と、現実の限界（足し算もできない）のギャップが面白く、だからこそ長期的にウォッチしたいテーマです。Schmidhuber教授が共著者という点にも、この分野の歴史的な文脈を感じます。

キーワード

ニューラルコンピュータ（NC）

AIモデルの内部状態だけで計算・記憶・入出力をすべてまかなう新しいコンピュータの概念

完全ニューラルコンピュータ（CNC）

NCの完成形。どんな計算もでき、自由にプログラムでき、明示的に変更しない限り動作が安定する理想像

ワールドモデル

環境の「物理法則」を学習して未来の状態を予測するAIモデル。ゲームやロボット制御でよく使われる

拡散モデル（Diffusion Model）

ノイズから画像や動画を段階的に生成するAI技術。最近の画像・動画生成AIの主流

リプロンプティング

AIへの指示文（プロンプト）をより詳しく書き直すことで、出力の質を上げるテクニック

チューリング完全

理論上どんな計算でもできる能力を持つこと。現代のパソコンはこの性質を持っている

論文情報

2604 06425

arXivで読む alphaXivで読む

トランスクリプト

かなで

はじまりました、放課後論文ラジオです。

ゆい

ゆいです！

かなで

かなでです。

ゆい

この番組は、最新のAI論文を2人でかみ砕いてゆるーく解説してるよ！

かなで

ゆいさ、最近パソコンの調子どう？

ゆい

あー、なんか最近アップデートしたら重くなったんだよね。

←前のエピソード

EP.001 #1 AIが40分で学会論文を書き上げる時代がやってきた

次のエピソード→

EP.003 #3 AIはサイコロを振れない？LLMの「ランダムのフリ」の正体

EP.002|#2 AIそのものが「パソコン本体」になる未来がやってきた

--:--/--:--