
#46 AIが会話中に「画面」を作る時代
AIが対話の中でボタンやスライダーを動的生成するGenerative UI研究
2026年5月28日
番組ノート
今回の論文
- タイトル: Macaron-A2UI: A Model for Generative UI in Personal Agents
- 著者: Fancy Kong, Congjie Zheng, Murphy Zhuang et al.(Mind Lab)
- 発表: 2026年5月(arXiv)
このエピソードのポイント
- AIが返答と一緒に「ボタン」「スライダー」「選択リスト」などのUI部品をその場で作って出してくれる新技術
- 専用訓練した中規模モデルが、フル仕様書を渡したGPT-5.4などのフロンティアモデルを上回った
- 「アプリは事前に作るもの」から「会話中に生成されるもの」へ、UXのパラダイムが変わる可能性
論文を読み解く
Overview
ひと言でいうと
AIエージェントとの会話で、長々としたテキスト返答の代わりに「ボタン」「スライダー」「選択リスト」といった操作可能なUI部品をAI自身がその場で生成して返す ——「会話画面そのものをAIが動的にデザインする」技術を実現した研究。
Background
背景
ChatGPTのようなAIアシスタントとのやり取りは、現状ほぼ「テキストの往復」だけです。しかしタスクが複雑になるほど、これは非効率になります。
例えば「ホテル近くで安めのディナーを予約したい」と頼むと、AIは「予算は?」「料理は?」「人数は?」「徒歩がいい?」と延々と質問してきます。利用者は毎回テキストで答え直さねばならず、認知負荷も高い。
ここで「予算スライダー」「料理ジャンルの選択肢ボタン」「人数入力」などが画面に出てくれば、一瞬で済みます。この発想自体は古くからありますが、AIが対話の流れの中で適切なUIを自分で生成する という能力を体系的に学習させた研究はほとんどありませんでした。
Novelty
何が新しいか
研究チームは「A2UI」という宣言的なUI記述プロトコル(HTMLやJavaScriptを書くのではなく、JSONで「こういう部品をこう並べて」と指示する仕組み)を採用し、AIに以下を生成させます:
- 自然言語の返答
- それに付随する 実行可能なUI部品の列(選択リスト、スライダー、日付入力、確認ボタンなど)
学習データは、既存の対話データセット4種(MultiWOZ、SGD、ESConv、AnnoMI)の約14,000サンプルを「ルール変換 + LLMによる注釈」のハイブリッド方式でUI付き対話に変換。99.2%が自動レンダリング可能な状態まで仕上げました。
学習は 2段階方式:
- 教師あり微調整(SFT) で「テキストとUIを混ぜて返す形式」を覚えさせる
- 強化学習(GRPO) で「UIを出すべきタイミング・部品選択・使い勝手」を磨く
ポイントは、推論時に長大なスキーマ仕様をプロンプトに入れなくても、モデルが内部にUI生成能力を「内面化」していること。
Results
どんな結果が出たか
独自ベンチマーク「A2UI-Bench」(300タスク)での総合スコア:
- Macaron-A2UI-Venti(754Bモデル): 75.6点(スキーマ仕様なし)
- GPT-5.4(完全なスキーマ仕様を与えた状態): 74.1点
- Gemini-3.1 Pro(同上): 71.0点
- GPT-4o-mini, DeepSeek-V3.1(スキーマなし素のまま): 20点台
つまり、専用に訓練したオープンモデルが、フロンティアモデルにフル仕様書を渡した状態をわずかに上回った わけです。特にプロトコル準拠性(L1スコア)は強化学習で大きく伸び、30Bモデルでも0.90 → 4.11と劇的に改善しました。
Key Point
なぜ重要か
この研究は「チャットUIの次」を示唆します。
現在のAIアシスタントは、業務システムやアプリに組み込んでも「テキストで延々と聞いてくる対話ボット」になりがちで、UXが悪い。一方で、毎回エンジニアが画面を作り込むのは大変です。Generative UI が実用化すれば、AIが対話の文脈に応じて必要なUI部品をその場で組み立てる ようになります。
ビジネス応用の例として考えられるのは:
- カスタマーサポートで、AIが状況に応じて「予約変更フォーム」「返金確認ボタン」などを動的生成
- 社内ヘルプデスクで、申請フォームをAIが対話から自動構築
- ECサイトで、好みの絞り込みUIが会話中にどんどん変化する
長期的には「アプリは事前に設計するもの」という前提が崩れ、「アプリは対話中に生成されるもの」 という新しいパラダイムに移る可能性があります。Microsoft や Google の研究動向と合わせて、注目すべき方向性です。
From the Host
解説者ノート
個人的に面白いのは、「巨大フロンティアモデルにフル仕様書を渡す」より「中規模モデルを専用訓練する」方が安く強い という結果。Generative UIのような構造的タスクでは、汎用知能より特化訓練が効くという示唆です。一方で、深い多ターン対話(depth task)ではまだGPT-5.4に負けており、状態管理の難しさが残ります。「アプリ設計はAIが対話中にやる」という未来像はまだ先ですが、その第一歩として注目に値する研究です。
キーワード
Generative UI
AIが対話の文脈に応じて、画面上のボタンやフォームなどを動的に生成する技術
A2UI
「こういう部品をこう配置して」とJSONで記述する宣言的UIプロトコル。HTMLを書かせるより安全で検証しやすい
LoRA
モデル全体ではなく、ごく一部のパラメータだけを追加学習する省コスト手法
GRPO
強化学習の一種。1つの問いに複数の答えを生成させ、互いに比較して良い方を強化する
スキーマライト
推論時に長い仕様書をプロンプトで与えなくても、モデルが学習で能力を「身につけている」状態
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい