
#18 見るAIと描くAIがひとつになる
拡散型LLMで画像の理解と生成を統合したLLaDA2.0-Uni
2026年4月23日
番組ノート
今回の論文
- タイトル: LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model
- 著者: Tiwei Bie et al.(Inclusion AI、AGI Research Center)
- 発表: 2026年4月(arXiv)
このエピソードのポイント
- 画像を「見る」AIと「描く」AIを1つにまとめた統合モデルが登場
- 画像を「意味を持った記号」に変換する工夫で、理解タスクでも専門モデルと互角に
- レシピの手順書のように、文章と画像を交互に生み出せる新しい使い方が見えてきた
論文を読み解く
Overview
ひと言でいうと
画像を「見て理解する」ことと「描いて作る」ことを、ひとつの拡散型AIモデルで同時にこなせるようにした統合型基盤モデル。専門特化モデルに匹敵する性能を、シンプルな統一設計で実現した研究。
Background
背景
これまでAIが画像を扱うには、「理解する用」のモデル(例: Qwen-VL)と「生成する用」のモデル(例: FLUX)を別々に用意するのが普通でした。しかし人間は、見ることと描くことを同じ脳で行っています。AIでもこれらを一体化できれば、両機能が互いを高め合い、運用コストも下がり、「考えながら絵を描く」ような高度な振る舞いも可能になります。
主流のアプローチは「自己回帰型(次の単語を順番に予測する方式)」でしたが、「拡散型(穴埋め問題をまとめて解く方式)」には並列処理で速いという利点があります。ただし既存の拡散型統合モデルは、画像トークン化の質が低く、理解タスクで専門モデルに大きく差をつけられていました。この差を埋めるのが本研究の狙いです。
Novelty
何が新しいか
核となるのは、「意味を保ったまま画像を離散的な記号に変換する」 という設計思想です。従来の拡散型統合モデルは、画像を「ピクセル再現のための記号」に変換していたため意味情報が失われ、理解タスクが弱くなっていました。
本研究では次の3つを組み合わせています:
- SigLIP-VQトークナイザー: 画像を「意味を持った離散トークン」に変換する。画像も文章のように「単語列」として扱えるようになる
- 16BパラメータのMoE型拡散LLMバックボーン: テキストと画像トークンを、同じ「マスク予測(穴埋め)」という目的で一括学習
- 拡散デコーダー: LLMが出力した意味トークンから、高品質な画像を復元する。通常50ステップ必要な生成を、蒸留(モデルの軽量化技術)で 8ステップ まで削減
加えて SPRINT という推論高速化技術で、重要度の低い部分のキャッシュを刈り込み、自信のあるトークンは先に確定させることで、品質をほぼ維持したまま約 1.6倍 の高速化を達成しています。
Results
どんな結果が出たか
21の理解ベンチマークと複数の生成ベンチマークで評価され、以下のような結果が出ました:
- 理解タスク: 専門特化モデル Qwen2.5-VL-7B とほぼ互角。MMStarで 64.1対63.9、CountBenchで 86.0対84.9 とむしろ上回る項目も
- 画像生成: GenEvalで 0.89 と統合モデルの中で最高スコア。特に「位置関係」の正確さで全モデル中トップ
- 画像編集: ImgEditベンチマークで統合モデルの中で1位(3.92)、複数参照画像編集のMICo-Benchでは 47.1 で新記録
- 推論付き生成: WISE-Benchで「思考モード」を使うと0.68→0.78へと約10ポイント向上
- 高速化: 拡散デコーダーは蒸留で 11.4倍 高速化(32.95秒/枚→2.90秒/枚)しながら品質はほぼ維持
Key Point
なぜ重要か
この研究の面白さは、「見る・描く・考える」を一つのモデルで行う未来を現実的に示した点にあります。
ビジネス視点で想像してみると、例えばECサイトで「この商品写真を見て、背景を夏のビーチに変えて、キャッチコピーも書いて」という指示を一つのAIが完結して処理できるようになります。資料作成でも、チャートを理解してコメントを返し、修正版を作画する、といった流れが一気通貫になります。
特に注目すべきは 「交互生成(Interleaved Generation)」 の能力です。料理レシピを「説明文→工程画像→次の説明文→次の工程画像」と交互に生成したり、チェスの問題を画像で見て候補手を検討しながら答えを出したりできます。これは従来の「テキスト生成AI」と「画像生成AI」を別々に呼び出すやり方では実現しづらかった、人間の思考過程に近い出力です。
モデルを1つにまとめることで、運用コスト・応答速度・マルチモーダルな一貫性のすべてが改善される可能性があり、企業システムへの組み込みやすさが大きく変わる方向性を示しています。
From the Host
解説者ノート
個人的に面白いのは、「画像をどう記号化するか」という一見地味な選択が、モデル全体の性能を大きく左右している点です。ピクセル再現型から意味重視型へ切り替えただけで、理解タスクで専門モデルに追いつけたのは示唆的でした。一方で、著者自身が「細かい視覚ディテールの保持」は今後の課題と認めており、写真レベルの精密編集ではまだ専門モデルに分がありそう。交互推論(思考しながら画像を挟む)の萌芽がどこまでスケールするかが、次の見どころだと思います。
キーワード
拡散型言語モデル(dLLM)
文章を「穴埋め問題」として一気に解くAI。単語を左から順に書く自己回帰型と違って、並列処理ができて速い
統合マルチモーダルモデル
画像理解と画像生成の両方を1つのモデルでこなせるAI。普通は別々のモデルが必要
SigLIP-VQトークナイザー
画像を「意味を持った単語のような記号」に変換する仕組み。従来は見た目だけを記号化していた
MoE(Mixture of Experts)
「専門家の集まり」型の構造。入力に応じて必要な専門家だけを呼び出すので、大規模でも効率的
蒸留(Distillation)
大きなモデルの知識を小さな・速いモデルに教え込む技術。ここでは50ステップの生成を8ステップに圧縮
交互生成(Interleaved Generation)
テキストと画像を交互に生成すること。レシピの手順書やストーリーボードのような出力が可能になる
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい