EP.046

#46 AIが会話中に「画面」を作る時代

AIが対話の中でボタンやスライダーを動的生成するGenerative UI研究

2026年5月28日

RSS

番組ノート

今回の論文

タイトル: Macaron-A2UI: A Model for Generative UI in Personal Agents
著者: Fancy Kong, Congjie Zheng, Murphy Zhuang et al.（Mind Lab）
発表: 2026年5月（arXiv）

このエピソードのポイント

AIが返答と一緒に「ボタン」「スライダー」「選択リスト」などのUI部品をその場で作って出してくれる新技術
専用訓練した中規模モデルが、フル仕様書を渡したGPT-5.4などのフロンティアモデルを上回った
「アプリは事前に作るもの」から「会話中に生成されるもの」へ、UXのパラダイムが変わる可能性

#放課後論文ラジオ#AI#生成AI#GenerativeUI#AIエージェント#UXデザイン#機械学習

論文を読み解く

Overview

ひと言でいうと

AIエージェントとの会話で、長々としたテキスト返答の代わりに「ボタン」「スライダー」「選択リスト」といった操作可能なUI部品をAI自身がその場で生成して返す ——「会話画面そのものをAIが動的にデザインする」技術を実現した研究。

Background

背景

ChatGPTのようなAIアシスタントとのやり取りは、現状ほぼ「テキストの往復」だけです。しかしタスクが複雑になるほど、これは非効率になります。

例えば「ホテル近くで安めのディナーを予約したい」と頼むと、AIは「予算は？」「料理は？」「人数は？」「徒歩がいい？」と延々と質問してきます。利用者は毎回テキストで答え直さねばならず、認知負荷も高い。

ここで「予算スライダー」「料理ジャンルの選択肢ボタン」「人数入力」などが画面に出てくれば、一瞬で済みます。この発想自体は古くからありますが、AIが対話の流れの中で適切なUIを自分で生成する という能力を体系的に学習させた研究はほとんどありませんでした。

Novelty

何が新しいか

研究チームは「A2UI」という宣言的なUI記述プロトコル（HTMLやJavaScriptを書くのではなく、JSONで「こういう部品をこう並べて」と指示する仕組み）を採用し、AIに以下を生成させます：

自然言語の返答
それに付随する 実行可能なUI部品の列（選択リスト、スライダー、日付入力、確認ボタンなど）

学習データは、既存の対話データセット4種（MultiWOZ、SGD、ESConv、AnnoMI）の約14,000サンプルを「ルール変換 + LLMによる注釈」のハイブリッド方式でUI付き対話に変換。99.2%が自動レンダリング可能な状態まで仕上げました。

学習は 2段階方式：

教師あり微調整（SFT） で「テキストとUIを混ぜて返す形式」を覚えさせる
強化学習（GRPO） で「UIを出すべきタイミング・部品選択・使い勝手」を磨く

ポイントは、推論時に長大なスキーマ仕様をプロンプトに入れなくても、モデルが内部にUI生成能力を「内面化」していること。

Results

どんな結果が出たか

独自ベンチマーク「A2UI-Bench」（300タスク）での総合スコア：

Macaron-A2UI-Venti（754Bモデル）: 75.6点（スキーマ仕様なし）
GPT-5.4（完全なスキーマ仕様を与えた状態）: 74.1点
Gemini-3.1 Pro（同上）: 71.0点
GPT-4o-mini, DeepSeek-V3.1（スキーマなし素のまま）: 20点台

つまり、専用に訓練したオープンモデルが、フロンティアモデルにフル仕様書を渡した状態をわずかに上回った わけです。特にプロトコル準拠性（L1スコア）は強化学習で大きく伸び、30Bモデルでも0.90 → 4.11と劇的に改善しました。

Key Point

なぜ重要か

この研究は「チャットUIの次」を示唆します。

現在のAIアシスタントは、業務システムやアプリに組み込んでも「テキストで延々と聞いてくる対話ボット」になりがちで、UXが悪い。一方で、毎回エンジニアが画面を作り込むのは大変です。Generative UI が実用化すれば、AIが対話の文脈に応じて必要なUI部品をその場で組み立てる ようになります。

ビジネス応用の例として考えられるのは：

カスタマーサポートで、AIが状況に応じて「予約変更フォーム」「返金確認ボタン」などを動的生成
社内ヘルプデスクで、申請フォームをAIが対話から自動構築
ECサイトで、好みの絞り込みUIが会話中にどんどん変化する

長期的には「アプリは事前に設計するもの」という前提が崩れ、「アプリは対話中に生成されるもの」 という新しいパラダイムに移る可能性があります。Microsoft や Google の研究動向と合わせて、注目すべき方向性です。

From the Host

解説者ノート

個人的に面白いのは、「巨大フロンティアモデルにフル仕様書を渡す」より「中規模モデルを専用訓練する」方が安く強い という結果。Generative UIのような構造的タスクでは、汎用知能より特化訓練が効くという示唆です。一方で、深い多ターン対話（depth task）ではまだGPT-5.4に負けており、状態管理の難しさが残ります。「アプリ設計はAIが対話中にやる」という未来像はまだ先ですが、その第一歩として注目に値する研究です。

キーワード

Generative UI

AIが対話の文脈に応じて、画面上のボタンやフォームなどを動的に生成する技術

A2UI

「こういう部品をこう配置して」とJSONで記述する宣言的UIプロトコル。HTMLを書かせるより安全で検証しやすい

LoRA

モデル全体ではなく、ごく一部のパラメータだけを追加学習する省コスト手法

GRPO

強化学習の一種。1つの問いに複数の答えを生成させ、互いに比較して良い方を強化する

スキーマライト

推論時に長い仕様書をプロンプトで与えなくても、モデルが学習で能力を「身につけている」状態

論文情報

2605 24830

arXivで読む alphaXivで読む

トランスクリプト

かなで

はじまりました、放課後論文ラジオです。

ゆい

ゆいです！

かなで

かなでです。

ゆい

この番組は、最新のAI研究を2人で読み解きながらお届けしてます！

かなで

今日もよろしくね。

ゆい

よろしくお願いしまーす！

←前のエピソード

EP.045 #45 AIの手順書を「学習率」で磨く時代

次のエピソード→

EP.047 #47 AIが複数視点で同じ世界を描く時代

EP.046|#46 AIが会話中に「画面」を作る時代

--:--/--:--