
#24 AIエージェントは「会話」をやめるべき?
複数AIを潜在表現でつなぎ、ループで深める新発想RecursiveMAS
2026年5月1日
番組ノート
今回の論文
- タイトル: Recursive Multi-Agent Systems
- 著者: Xiyuan Yang, Jiaru Zou et al.(UIUC、Stanford、NVIDIA、MIT)
- 発表: arXiv, 2026年4月
このエピソードのポイント
- 複数のAIエージェントを「文章」ではなく「思考の中身(潜在表現)」で直接つなぐ新フレームワーク
- LLM本体は凍結したまま、間をつなぐ小さなモジュールだけを学習させる省コスト設計
- 精度は平均8.3%向上、速度は最大2.4倍、トークンは最大75.6%削減という三方良しの結果
論文を読み解く
Overview
ひと言でいうと
複数のAIエージェントを「文章のやりとり」ではなく「思考の中身(潜在表現)」で直接つなぎ、ループさせて何度も推論を深めることで、精度を上げつつ速度も上げる新フレームワーク RecursiveMAS を提案した研究です。
Background
背景
最近のAI業界では、1つの巨大モデルに頼るのではなく、役割の違うAIエージェントを複数組み合わせて協働させる「マルチエージェントシステム(MAS)」が注目されています。プランナー、批評役、解答役…と分業させるイメージです。
ただ、ここに2つの大きな問題がありました。(1) エージェント同士は文章でやり取りするので、お互いの返答を待つ必要があり、遅くてトークン消費も激しい。(2) システム全体を学習で改善しようとすると、各モデルの全パラメータをいじる必要があり、現実的に難しい。
そこで著者らは「最近流行りの『再帰的言語モデル(同じ計算を何度も回して思考を深める手法)』の発想を、マルチエージェント全体に拡張できないか?」という問いを立てました。
Novelty
何が新しいか
肝は 「エージェント同士を文章ではなく、内部の隠れベクトル(潜在表現)で直接つなぐ」 という点です。
通常、エージェントAが答えを出すには、内部の思考を文章にデコード→次のエージェントBが文章を読み直してエンコード…という変換が毎回入ります。これが遅さの正体。RecursiveMAS では、この「文章化」をスキップし、Aの最終層の隠れ状態をそのままBの入力ベクトル空間に変換して渡します。
この変換を担うのが RecursiveLink という、わずか2層の軽量モジュール(残差接続付き)。これには2種類あって、(i)同じエージェント内で「次の一歩の思考」を生み出す 内側リンク、(ii)異なるモデル同士をつなぐ 外側リンク。最後のエージェントが終わると、その出力をまた最初のエージェントに戻し、ループさせる仕組みです。
学習も巧妙で、LLM本体は凍結したまま、このRecursiveLinkだけを訓練します。「内側ループ」で各エージェントを潜在思考に慣らし、「外側ループ」でシステム全体を一気通貫で最適化。理論的にも、文章ベースだと勾配が消えてしまうのに対し、潜在ベースなら勾配が安定して流れることが証明されています。
Results
どんな結果が出たか
数学(MATH500、AIME)、科学(GPQA)、医療(MedQA)、コード生成(LiveCodeBench、MBPP+)、検索QA(HotpotQA、Bamboogle)など 9つのベンチマーク で検証。
- 精度:従来の最強ベースラインに対し、平均 8.3% の精度向上
- 速度:エンドツーエンドで 1.2〜2.4倍 高速化
- トークン消費:34.6〜75.6% 削減
特に面白いのは、再帰の回数を増やすほど効果がスケールすること。1回ループでは1.2倍だった速度向上が、3回ループでは2.4倍に拡大します(文章ベースだと逆にトークンが爆発する)。AIME2025では従来比 +18.1% という劇的な改善も。学習コストも、フル微調整より低GPU使用量・低コストで上回る性能を出しています。
Key Point
なぜ重要か
「複数のAIを連携させる」というのは、すでにビジネス現場で使われ始めているアプローチです(リサーチエージェント、コーディング支援、医療診断支援など)。ただ、現状のマルチエージェントは 「遅い」「トークン課金が膨らむ」「個々の改善はできても全体最適化が難しい」 という壁にぶつかっています。
この研究はその3つを同時に解決する可能性を示しました。文章という「人間に読める形式」を中間ステップで省くことで、システム全体を1つのニューラルネットのように扱える というのが核心。これにより、エージェント連携が「コストのかかる贅沢品」から「むしろ単一モデルより効率的な選択肢」になり得ます。
実務的には、(i)複数の専門AIを組み合わせるサービス(法務×財務×技術レビューなど)の応答が爆速になる、(ii)APIコストが大幅削減できる、(iii)小さなモデルを賢く連携させて大きなモデルに匹敵する性能を出せる、といった効果が期待できます。「AIの数を増やす」だけでなく「賢く繋げる」という方向性が、次の競争軸になりそうです。
From the Host
解説者ノート
個人的に面白いのは、「AI同士の会話を、人間に読めない形式に変えると、むしろ全部うまくいく」という発想の転換。我々は無意識に「AIエージェントの中間出力も文章であるべき」と思いがちですが、本来そこに自然言語を経由する必然性はないんですよね。一方で、デバッグやガバナンスの観点では「中間が読めない」ことは新たな課題にもなるはず。透明性と効率のトレードオフをどう設計するかが、実用化に向けた次のテーマになりそうです。
キーワード
マルチエージェントシステム(MAS)
役割の違う複数のAIをチームのように連携させて問題を解く仕組み
潜在表現(latent representation)
AIが文章を出力する直前に内部で持っている「思考の数値ベクトル」。文章にする前の生の中間状態
再帰的計算(Recursion)
同じ処理を何回もループさせて、徐々に答えを精緻化していくやり方
RecursiveLink
本研究の中核モジュール。エージェント内・エージェント間で潜在表現を翻訳・橋渡しする小さなネットワーク
勾配消失
学習時に、層やループを重ねるほど学習の手がかりが薄れて伝わらなくなる現象。本手法はこれを回避できる
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい