EP.029

#29 AIに自己レビューさせてはいけない

実行役と批評役を別AIに分ける研究自動化システムARIS

2026年5月7日

RSS

番組ノート

今回の論文

タイトル: ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration
著者: Ruofeng Yang, Yongcan Li, Shuai Li 他（上海交通大学）
発表: 2026年4月（arXivテクニカルレポート）

このエピソードのポイント

AIによる研究自動化の最大の落とし穴は「もっともらしいが裏付けのない成功」を作り出してしまうこと
ARISは「実行するAI」と「批評するAI」を別メーカーに分けることで、自己レビューの甘さを回避
主張と根拠を台帳で突き合わせ、履歴ゼロの第三者AIに再監査させる仕組みは、社内のAI運用にも転用できる発想

#放課後論文ラジオ#AI#LLM#AIエージェント#マルチエージェント#研究自動化#ARIS

論文を読み解く

Overview

ひと言でいうと

「実行役」と「批評役」を別系統のAIに分担させ、機械学習の研究プロセス（アイデア出し→実験→論文執筆→査読対応）をまるごと自動化する、オープンソースのAI研究アシスタントを構築した研究。

Background

背景

ChatGPTやClaudeなどの大規模言語モデル（LLM）の能力が上がり、「AIだけで論文を書かせる」試みが世界中で進んでいます。先行する「AI Scientist」などは、アイデア出しから論文執筆までを一気通貫で自動化しました。

ただし、こうした既存システムには共通の弱点があります。それは1つのAIが自分の出した結果を自分で見直すことです。同じAIは同じクセを持つので、自分の間違いを見逃してしまう。さらに困ったことに、AIは長時間タスクをやらせると「もっともらしいが裏付けのない成功（plausible unsupported success）」を作り出すクセがあります。実験結果を盛ったり、論文の主張を実際の数字以上に大きく書いたり、存在しない引用文献をでっち上げたり――。著者らはこれを「単一エージェントによる長時間タスクは原理的に信頼できない」と割り切り、別のアプローチを設計しました。

Novelty

何が新しいか

ARISのコアアイデアは 「実行するAIと批評するAIは、必ず違うメーカーのものにする」 という運用ルールです。たとえば実行役はClaude、批評役はGPT-5.4、といった具合に。著者らはこれを「同じAIで自己レビューするのはノイズを当てにいくゲーム、別系統AIにレビューさせるのは敵対的なゲーム」とバンディット理論に例えています。後者のほうがゴマかしが効きにくい、というわけです。

システムは3層構造です。

実行層：65個以上の「スキル」（Markdownで書かれた手順書）を組み合わせて作業を進める
オーケストレーション層：5つのワークフロー（アイデア発見／実験／自動レビュー／論文執筆／査読反論）を連携させる
保証層：「実験コードは正しいか」「論文の主張と数字は一致するか」「証明は妥当か」「引用文献は実在するか」を多段階でチェックする

特に保証層では、論文の主張を全部リストアップ→根拠と突き合わせ→第三者AIが履歴ゼロの状態で再監査、という3段階監査を設計しています。

Results

どんな結果が出たか

これは実験論文というよりシステム論文（テクニカルレポート）なので、ベンチマーク数値ではなく実装規模と運用事例で結果を示しています。

スキル数：初版21個から 65個以上 に成長（ロボット・ハードウェア・数学証明など領域横断）
対応プラットフォーム：Claude Code、Codex CLI、Cursorなど 6種類
レビューモデル：GPT、Gemini、GLM、Kimi、DeepSeekなど 6種類以上

実例として、一晩（約8時間）で4回の査読・修正サイクルを回し、内部レビュー点が5.0/10から7.5/10に上昇、20回以上のGPU実験を実施し、根拠の薄い主張を自動削除したトレースが報告されています。ただし著者自身が「これは1論文1事例の観察にすぎず、因果的な優位性の証拠ではない」と慎重に断っています。

Key Point

なぜ重要か

この論文の本当の面白さは、技術ではなく 「AIに長時間仕事をさせるときの設計思想」 にあります。「AIは寝ている間に論文を書いてくれる」というユーザー体験よりも、「AIに自分の作業を自分でレビューさせてはいけない」という運用原則のほうが、ビジネス応用に直結します。

たとえば、AIエージェントに資料作成、コードレビュー、調査レポート、契約書チェックをやらせる場面でも、同じ問題が起きます。1つのAIに「やって」「自己点検して」と頼むと、表面的にはきれいな成果物が出てくるが、中身の数字がずれていたり、引用元が架空だったりする。ARISが提案する「実行役と批評役を別ベンダーのAIに分ける」「監査は履歴ゼロの第三者にやらせる」「主張と根拠を機械可読の台帳で突き合わせる」という設計は、社内のAIワークフロー設計にそのまま転用できる発想です。

また、研究という「正確性が極端に重要な領域」での運用ノウハウなので、医療、法務、金融などの高リスク業務にAIを導入する際の参考設計としても価値があります。

From the Host

解説者ノート

個人的に面白かったのは、技術ブレイクスルーではなく 「AIを信用しない設計」を真正面から論じている 点です。最近のAI界隈は「単一の万能エージェント」志向が強いですが、本論文は逆方向に振り切り、「同じ系統のAIには絶対セルフレビューさせない」という運用上の保守主義を選んでいます。バンディット理論の比喩は文学的で、必ずしも厳密な根拠ではないと著者自身も認めています。気になる限界は、定量比較がほぼ無いこと――「クロスファミリーレビューが本当に効いているのか」は今後の検証待ちですが、ハーネス設計の思想自体は社内AI運用にすぐ持ち込める価値があります。

キーワード

ハーネス（harness）

AIモデル本体の周りを取り囲む「業務システム部分」。何を覚えさせ、何を見せ、どう繋ぐかというロジック全体

敵対的協調

仲間ではあるが立場が違うAI同士で、わざと粗探しをさせ合うことで品質を上げる仕組み

もっともらしい裏付けなき成功

一見うまくいっているように見えるが、実は根拠が伴っていないAIの出力。長時間タスクの最大の落とし穴

主張台帳（claim ledger）

論文の主張1つ1つを「どの実験データが裏付けているか」と紐づけて管理する一覧表

MCPブリッジ

異なるベンダーのAIモデルを統一インターフェースで呼び出す接続層

メタ最適化

システム自身の使われ方を観察し、設定や手順書を改善していく外側のループ

論文情報

2605 03042

arXivで読む alphaXivで読む

トランスクリプト

かなで

はじまりました、放課後論文ラジオです。

ゆい

ゆいです！

かなで

かなでです。

ゆい

この番組は、AIや機械学習の論文を会話形式でわかりやすく解説してるよ！

かなで

今日もよろしくね、ゆいちゃん。

ゆい

よろしくー！ねえねえ、聞いてよ。

←前のエピソード

EP.028 #28 90万円で動く「考えるロボット」の正体

次のエピソード→

EP.030 #30 AIがAIを鍛える、文書理解の新しいレシピ

EP.029|#29 AIに自己レビューさせてはいけない

--:--/--:--