放課後論文ラジオ
放課後論文ラジオ
EP.035

#35 AIをチームで動かすと小型モデルが化ける

役割分担と記憶整理で4Bモデルが約1.8倍の正答率に

2026年5月13日

番組ノート

今回の論文

  • タイトル: TMAS: Scaling Test-Time Compute via Multi-Agent Synergy
  • 著者: George Wu, Nan Jing, Qing Yi, Chuan Hao et al. (IQuest Research, 北京航空航天大学)
  • 発表: 2026年(arXiv プレプリント)

このエピソードのポイント

  • 複数のAIに「解答役」「検証役」「記録役」と役割分担させ、チームで難問を解かせる発想
  • 「使うべき記憶」と「繰り返さないための記憶」を分けて管理することで試行錯誤が次に活きる
  • 小型の4Bモデルが30Bモデルに肉薄するなど、コスト面でも大きな可能性を示した
#放課後論文ラジオ#AI#機械学習#LLM#マルチエージェント#推論#強化学習

論文を読み解く

Overview

ひと言でいうと

複数のAIエージェントを「解答役」「検証役」「経験記録役」「戦略記録役」などに役割分担させ、過去の試行錯誤を整理して次に活かす仕組みで、難問の推論精度を継続的に伸ばし続けるフレームワークを実現した研究。

Background

背景

ChatGPTのような大規模言語モデル(LLM)の推論能力を上げる方法として、最近注目されているのが「テスト時スケーリング(Test-Time Scaling)」です。これは、AIが答えを出すときに、より多くの計算時間や試行回数を与えて、じっくり考えさせるアプローチです。

ところが、難しい数学オリンピックレベルの問題になると、ただ「長く考えさせる」「たくさん答えを出させて多数決を取る」だけでは限界があります。最近は複数の解答を並行して出し、検証して直すという「verify-refine」型の手法も登場していますが、​解答どうしが連携せず、せっかくの試行錯誤が次に活かされないという問題がありました。逆に過去の履歴をすべて参照すると、ノイズが多すぎて判断が鈍ります。「何を覚え、何を捨てるか」が課題だったのです。

Novelty

何が新しいか

TMASの肝は、AIに ​「役割分担した5人のチーム」​ で問題を解かせる発想です。

  • 解答エージェント: 解答案を複数並行で生成
  • 検証エージェント: 各解答を独立に何度もチェック
  • 要約エージェント: 検証結果を整理
  • 経験エージェント: 信頼できる「途中結論」や「具体的なミスのパターン」を経験バンクに蓄積
  • ガイドラインエージェント: 試した「大まかな解法戦略」をガイドラインバンクに記録

ポイントは、記憶を 2階層に分けた こと。経験バンクは「この補題は正しい」「この計算ミスを避けよ」という低レベルの具体情報を 再利用する ために、ガイドラインバンクは「この方針はもう試した」という高レベルの戦略を 避ける(重複探索を防ぐ)​ ために使います。つまり「使うべき記憶」と「繰り返さないための記憶」を切り分けたわけです。

さらに、強化学習(RL)で「正解する力」「経験を活かす力」「新しい戦略を探す力」の3つを同時に鍛える ハイブリッド報酬 も設計しました。

Results

どんな結果が出たか

国際数学オリンピック級の難問ベンチマーク「IMO-AnswerBench-50」と「HLE-Math-100」で評価。Qwen3-30B モデルを使ったとき、19回の繰り返し推論後にIMO問題で 40.5% の正答率を達成し、既存手法(RSEの38.0%、PaCoReの30.3%)を上回りました。

特に印象的なのは小型の4Bモデルへの効果です。ハイブリッド報酬での強化学習を組み合わせると、4Bモデルが17.1% → 30.9% へと約1.8倍に向上。30Bモデルとの差を 約59%縮める ことができました。さらに、通常のRL(正解報酬のみ)では後半に性能が劣化するのに対し、ハイブリッド報酬では繰り返すほど安定して伸び続けたのも重要な発見です。

Key Point

なぜ重要か

この研究は「AIに使う計算リソースをどう配分すれば賢くなるか」という、ビジネス的にも重要な問いに一つの答えを示しています。

第一に、​小型モデルでも大型モデルに迫れる という結果は、コスト面で大きな意味があります。4Bモデルが30Bモデルに肉薄できるなら、自社運用や省コスト推論の選択肢が広がります。

第二に、「役割分担+記憶の整理」という考え方は、AIエージェントを業務に組み込む際の設計指針になります。たとえば法務レビューや投資分析、コンサルティング業務のように、調査→検証→振り返り→再検討を繰り返す仕事では、「何を覚え、何を捨て、何を試したか」を構造的に管理する仕組みが効きます。これは人間のチーム運営にも通じる発想です。

第三に、「正解だけを報酬にしない」訓練方針は、AIを単なる答え当てマシンではなく、​探索と活用のバランスを取れる存在に育てる 方向性を示しています。創造性が求められる業務でAIを使う未来に向けた重要な一歩といえます。

From the Host

解説者ノート

個人的に面白かったのは「正解を出したエージェントを単発の成功で終わらせず、その知見を抽出して仲間に共有する」という設計思想です。本文中のケーススタディで、最初は8回中0回しか正解できなかった問題が、1つの正解から「経験」が抽出されることで7/8まで上がる過程は、人間チームの学習に近い感覚があります。一方、著者自身が指摘している通り、​検証役と解答役が同じモデルだと能力の上限を共有してしまう​(間違いを見抜けない)という限界が残っています。フロンティアモデルでこの枠組みがどこまで伸びるか、今後の展開に注目したいです。

キーワード

テスト時スケーリング

AIが答えを出すときに、より多くの計算や試行を費やして精度を上げる手法。学習後の「本番の頑張り」を増やすイメージ

マルチエージェント

役割の違う複数のAIが協力して問題を解く構成。社内で「企画」「審査」「記録係」を分けるのに似ている

経験バンク/ガイドラインバンク

過去の試行から学んだ「使える知識」と「もう試した戦略」を別々に保管する仕組み

探索と活用のバランス

既知の有望な道を深堀り(活用)するか、新しい道を試す(探索)か、のトレードオフ

強化学習(RLVR)

「正解したらご褒美」を与えて、AIの行動方針を改善していく学習方法

Pass@1

1回の試行で正答する確率。AIの実力を測る代表的な指標

論文情報

2605 10344

トランスクリプト

K

かなで

はじまりました、放課後論文ラジオです。
Y

ゆい

ゆいです!
K

かなで

かなでです。
Y

ゆい

この番組は、最新のAI研究を2人で読み解きながらお届けしてます!
K

かなで

今日もよろしくね。
Y

ゆい

よろしくお願いしまーす。

EP.035|#35 AIをチームで動かすと小型モデルが化ける