放課後論文ラジオ
放課後論文ラジオ
EP.002

#2 AIそのものが「パソコン本体」になる未来がやってきた

動画生成AIでOS不要のコンピュータを再現する「ニューラルコンピュータ」の挑戦

2026年4月16日

番組ノート

今回の論文

  • タイトル: Neural Computers
  • 著者: Mingchen Zhuge et al.(Meta AI / KAUST)
  • 発表: 2026年4月

このエピソードのポイント

  • AIモデルの内部状態だけでCPU・メモリ・画面表示をすべてまかなう「ニューラルコンピュータ」という新概念が提案された
  • ターミナル版とデスクトップ版の2つのプロトタイプを構築し、操作に応じた画面変化の動画生成に成功した
  • 算数の正答率が自力4%→ヒントあり83%と、「自分で考える」のではなく「教えてもらった答えを映す」段階であることも正直に示された
#放課後論文ラジオ#AI#機械学習#ニューラルコンピュータ#動画生成AI#拡散モデル#AIエージェント

論文を読み解く

Overview

ひと言でいうと

ニューラルネットワーク(AI)そのものを「コンピュータ本体」として動かし、命令を受けて画面を生成・操作できる仕組みを提案・実証した研究。従来のように外部のOSやソフトウェアに頼るのではなく、 AIの内部状態だけで計算・記憶・入出力のすべてをまかなう 新しいコンピュータの形を目指している。

Background

背景

現在のAI活用は、大きく3つのパターンに分かれています。①従来のコンピュータ(プログラムを書いて動かす)、②AIエージェント(AIが既存のソフトやブラウザを「代わりに操作する」)、③ワールドモデル(環境の物理法則を学んで未来を予測する)。しかしいずれも、 実際にプログラムを動かす「実行環境」はAIの外側 にあります。AIは指示を出すだけで、本当の計算やメモリ管理はOSやハードウェアが担っています。この論文は「AIモデルの重み(学習済みパラメータ)そのものがコンピュータとして振る舞えないか?」という根本的な問いを立て、その第一歩を検証しています。

Novelty

何が新しいか

この研究では ​「ニューラルコンピュータ(NC)」​ という概念を定義しました。これはAIモデルの内部状態がCPU・メモリ・画面入出力のすべてを兼ねる、という大胆な発想です。

具体的な実装としては、最新の動画生成AI(Wan2.1)をベースに2種類のプロトタイプを構築しています。

  • NCCLIGen:「ターミナル画面版」。テキスト命令と最初の1フレームを与えると、コマンド実行後の画面の動画を生成する
  • NCGUIWorld:「デスクトップ画面版」。マウスクリックやキーボード入力の情報を与えると、その操作に応じた画面変化の動画を生成する

たとえるなら、 ​「本物のパソコンを動かさなくても、AIが画面の見た目と操作の結果を丸ごと"シミュレーション"する」​ イメージです。学習データには、実際のターミナル操作の録画約1,100時間分や、デスクトップ操作の録画約1,500時間分を使っています。

Results

どんな結果が出たか

ターミナル版(CLI)​ では、学習6万ステップ後にOCR(文字認識)による文字精度が初期の 3% から 54% に向上し、行単位の完全一致も 31% に達しました。ただし算数の計算問題では正答率わずか 4% と、記号的な推論は苦手。ここで面白いのは、プロンプトに「答えは○○」というヒントを追加する「リプロンプティング」を行うと、正答率が 83% まで跳ね上がった点です。つまり、計算を自力でしているのではなく、 ​「正解を教えてもらえば正しく画面に描ける」​ という性質が明らかになりました。

デスクトップ版(GUI)​ では、目的を持った操作データ(わずか110時間)が、ランダム操作データ(1,400時間)より圧倒的に高性能でした。また、カーソルの位置を座標だけで教えた場合は精度 8.7% でしたが、カーソル画像を直接見せる方式にすると 98.7% に達し、短い操作への応答は正確に学習できることが示されました。

Key Point

なぜ重要か

この研究が示唆するのは、 ​「コンピュータの概念そのものが変わるかもしれない」​ という可能性です。

現在のAIエージェント(たとえばClaude Computer Useなど)は、既存のOSやブラウザを「操作する」立場です。あくまで人間の代わりにマウスやキーボードを動かしている。一方、ニューラルコンピュータは AI自身が「パソコンの中身」になる という発想です。

まだプロトタイプ段階ですが、もしこれが成熟すれば、たとえば自然言語で「こういう業務フローを組んで」と指示するだけで、AIが内部にその処理能力を"インストール"し、繰り返し使えるようになる世界が見えてきます。プログラミングが不要になるのではなく、 ​「日本語や英語がそのままプログラミング言語になる」​ という方向性です。

ただし著者ら自身が認めるように、現時点では簡単な足し算すら自力では解けず、長時間安定した動作や機能の再利用もできていません。「完全なニューラルコンピュータ(CNC)」への道のりは、まだ相当に長いと考えられます。

From the Host

解説者ノート

個人的に最も印象的だったのは、算数の正答率が「自力 4% → ヒントあり 83% 」という結果です。これはつまり、今の動画生成AIは ​「考えて答えを出す」のではなく「教えてもらった答えを正しく映す」​ ことしかできていない、ということを正直に示しています。この誠実さが好印象でした。壮大なビジョン(AIがOS不要のコンピュータになる)と、現実の限界(足し算もできない)のギャップが面白く、だからこそ長期的にウォッチしたいテーマです。Schmidhuber教授が共著者という点にも、この分野の歴史的な文脈を感じます。

キーワード

ニューラルコンピュータ(NC)

AIモデルの内部状態だけで計算・記憶・入出力をすべてまかなう新しいコンピュータの概念

完全ニューラルコンピュータ(CNC)

NCの完成形。どんな計算もでき、自由にプログラムでき、明示的に変更しない限り動作が安定する理想像

ワールドモデル

環境の「物理法則」を学習して未来の状態を予測するAIモデル。ゲームやロボット制御でよく使われる

拡散モデル(Diffusion Model)

ノイズから画像や動画を段階的に生成するAI技術。最近の画像・動画生成AIの主流

リプロンプティング

AIへの指示文(プロンプト)をより詳しく書き直すことで、出力の質を上げるテクニック

チューリング完全

理論上どんな計算でもできる能力を持つこと。現代のパソコンはこの性質を持っている

論文情報

2604 06425

トランスクリプト

K

かなで

はじまりました、放課後論文ラジオです。
Y

ゆい

ゆいです!
K

かなで

かなでです。
Y

ゆい

この番組は、最新のAI論文を2人でかみ砕いてゆるーく解説してるよ!
K

かなで

ゆいさ、最近パソコンの調子どう?
Y

ゆい

あー、なんか最近アップデートしたら重くなったんだよね。

EP.002|#2 AIそのものが「パソコン本体」になる未来がやってきた