EP.044

#44 AIは科学の未来を予測できるのか？

4,760件の発見で検証、最新AIの予測力に意外な弱点

2026年5月25日

RSS

番組ノート

今回の論文

タイトル: Forecasting Scientific Progress with Artificial Intelligence
著者: Sean Wu, Pan Lu, Yupeng Chen, Jonathan Bragg et al.（オックスフォード大学・スタンフォード大学・Allen Institute for AI・Sakana AI）
発表: arXiv, 2026年5月

このエピソードのポイント

最新AIに「次にどんな発見が、いつ起きるか」を予測させたら、実現可否はほぼコイン投げ並み、時期予測は平均36ヶ月も未来にズレた
訓練データに含まれているはずの過去の発見でも予測精度がほぼ変わらず、「知っているのに使えていない」ことが判明
AI業界の進歩予測だけは他分野より精度が高く、「自分の業界」は読めるという面白い偏りも見えた

#放課後論文ラジオ#AI#機械学習#LLM#科学予測#ベンチマーク#GPT#研究戦略

論文を読み解く

Overview

ひと言でいうと

最先端のAIは「過去の科学知識を整理する」のは得意でも、「次にどんな科学的ブレークスルーが、いつ起きるか」を予測する力は持っていないことを、4,760件の科学的事件で実証した研究。

Background

背景

AIは創薬・材料探索・タンパク質構造予測（AlphaFold）など、科学のあらゆる分野に入り込みつつあります。そこで自然と湧く疑問が「では、AIは科学の進歩そのものを予測できるのか？」というもの。もしAIが「次にどんな発見が起きるか」を当てられるなら、研究投資・政策・企業の戦略立案が大きく変わります。

ところが従来のAI評価ベンチマークは、答えがすでに知られている問題を解かせるもの（＝振り返り型）ばかり。「未来を予測する力」を、訓練データに答えが混入しないよう厳密に切り分けて測る仕組みが存在しませんでした。本研究はこの空白を埋めるために生まれました。

Novelty

何が新しいか

著者らは CUSP という新しいベンチマークを作りました。ポイントは「時間で区切る」という発想です。

具体的には、2024年1月〜2026年3月に Nature・Science・Cell や AI 系トップ会議で発表された 4,760 件の科学的マイルストーンを集め、各事件に正確な「発表日」をひも付けます。そして AI には、その日付より前の知識だけで「この発見は実現するか／いつ実現するか／どんな手法で実現されるか」を予測させる、という設定です。

評価は4つの角度から行います：

実現可能性の判定（Yes/No）
メカニズムの推論（4択：どの技術が使われたか）
解決策の生成（自由記述：自分で手法を提案）
時期の予測（何年何月に実現するか）

さらに、論文タイトルや新しい略語など「答えを示唆する固有名詞」は全て除去。Web検索を使う場合も「カットオフ日以前の情報のみ」に制限する実験も行い、「知識が足りないのか／使い方が下手なのか」を切り分けています。

Results

どんな結果が出たか

GPT-5.4、Claude Sonnet 4.5、DeepSeek R1 など6つの最先端モデルを評価した結果、興味深い偏りが見えました。

4択問題（メカニズム選択）：GPT-5.4 が 82% の正答率。「もっともらしい技術を見抜く」のは得意。
Yes/No 判定（実現可能性）：全モデルが 45〜52% とほぼコイン投げ並み。「実現するかどうか」はまったく予測できていない。
時期予測：全モデルが体系的に「未来寄り」にズレる。GPT-4o は平均で 約36ヶ月も遅く 予測。月単位の正確な予測は4%未満。
訓練カットオフ前後で差が出ない：これが衝撃的で、訓練データに含まれているはずの過去の発見でも、予測精度はほとんど変わらない。つまり「知っているはずなのに使えていない」。
高被引用論文ほど予測ギャップが大きい：影響の大きい重要発見ほど、AIは予測できない。

Key Point

なぜ重要か

「AIに次の技術トレンドを聞いてみよう」という発想は、経営層や投資家の間で広がりつつあります。しかしこの研究は、その期待にきっぱり水を差します。AIは 過去の文脈整理や、もっともらしい仮説の列挙は得意でも、「次に何が・いつ起きるか」を当てる能力は現時点で持っていない のです。

しかも、過信（オーバーコンフィデンス）が常に起きており、AIは自分の予測に高い確信を示します。つまり「もっともらしく外す」。これはR&D戦略、特許戦略、技術投資の判断にAIをそのまま使うと危険、ということを意味します。

一方で、興味深いのは AI分野の進歩予測だけは他分野より精度が高い（時期予測スコア 0.46 vs 他 0.18〜0.28）こと。AIは「自分の業界の動向」だけは比較的読める。これは、技術系ベンチマークの進歩が他分野より直線的・予測可能だからとみられます。

ビジネス的な含意としては、「AIに未来予測を丸投げするのではなく、人間の専門家がAIを“仮説生成マシン”として使い、判断は人間が下す」という役割分担が当面は妥当、ということでしょう。

From the Host

解説者ノート

個人的に最も面白かったのは「訓練データに含まれている過去の発見でも予測精度が上がらない」という点。つまり問題は知識量ではなく、知識を時間軸に並べて推論する力そのものにある、という指摘です。また高被引用（＝重要）論文ほど予測が外れるという結果も示唆的で、本当に革新的なものほどAIには見えない、というのは妙に納得できる話でした。CUSPは継続的に更新される設計なので、今後モデル世代が変わったときに「予測力」が伸びるのか、それとも構造的な壁なのか、追跡する価値があります。

キーワード

訓練カットオフ

AIが学習に使ったデータの「最終日」。これ以降の出来事はAIにとって未知のはず

CUSP

本研究のベンチマーク名。「カットオフ条件付き未知の科学的進歩」の略

キャリブレーション

AIが「80%の自信がある」と言ったとき、本当に80%当たっているかという信頼性の指標

知識ギャップ vs 予測ギャップ

前者は「情報不足による失点」、後者は「情報を与えても埋まらない予測能力の限界」

応答バイアス

質問の中身よりも「Yes と言いがち／No と言いがち」というAIの偏った癖

論文情報

2605 22681

arXivで読む alphaXivで読む

トランスクリプト

かなで

はじまりました、放課後論文ラジオです。

ゆい

ゆいです！

かなで

かなでです。

ゆい

この番組は、最新のAI研究を2人で読み解きながらお届けしてます！

かなで

今日もゆるくいきましょう。

かなで

ねえゆい、最近なんか予想外れたこととかある？