放課後論文ラジオ
放課後論文ラジオ
EP.016

#16 試着AIが4秒で返ってくる時代

タオバオが実運用する、数十倍速のバーチャル試着

2026年4月22日

番組ノート

今回の論文

  • タイトル: Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items
  • 著者: Mengting Chen et al.(Taobao / アリババ Pailitaoチーム)
  • 発表: 2026年4月

このエピソードのポイント

  • 自撮り写真に、最大6点の服・バッグ・帽子などを一気に着せ替えできる商用試着AI
  • 他社モデルが200秒かかるところを、約4〜7秒で返すという桁違いのスピード
  • すでにタオバオで数千万件が実運用。ECの返品率問題に効く「現実解」になりつつある
#放課後論文ラジオ#AI#バーチャル試着#ファッションテック#EC#画像生成AI#タオバオ

論文を読み解く

Overview

ひと言でいうと

スマホで自撮りするだけで、トップス・パンツ・靴・バッグ・帽子など最大6点までの服を自分に着せ替えさせ、しかも数秒で結果が返ってくる —— タオバオ(淘宝)が実際に数千万件の試着リクエストをさばいている、商用レベルのバーチャル試着AI。

Background

背景

「ネットで服を買う前に、自分が着た姿を見たい」というのは誰もが抱く欲求です。画像生成AI(Stable DiffusionやGPT-Imageなど)の進化で、バーチャル試着は現実味を帯びてきました。

しかし実用化には厚い壁があります。研究用データセットはスタジオで撮った綺麗な全身写真と、白背景に置かれたきちんとした商品画像ばかり。一方、実際のユーザーが送ってくる写真は、極端なポーズ、逆光、ブレ、複雑な背景など、現実の「生々しさ」に満ちています。また、上着・インナー・パンツ・靴・バッグ・帽子といった複数アイテムを同時にコーディネートさせたいという要望にも応えなければなりません。加えて、ECサイトで使うなら「数秒で返す」スピードも必須。この「頑健さ・忠実さ・柔軟さ・速さ」を同時に満たすモデルは、これまで存在しませんでした。

Novelty

何が新しいか

ポイントは、​バーチャル試着を「塗りつぶし(インペインティング)」ではなく「画像編集タスク」として扱い直した こと。従来のように「体の一部をマスクしてそこに服を描く」のではなく、複数の参照画像(人物1枚+服や小物を最大6枚)を一気に受け取り、それらを一つのTransformer(MMDiTアーキテクチャ)で協調的に処理します。

技術的な工夫を料理にたとえると:

  • データエンジン:多品目コーデの学習データが足りないので、画像を部品分解して自動でペアを作る仕組みを構築(食材の下ごしらえ工場)
  • 多段階学習:まず一般的な画像編集で下地を作り → 高解像度で磨き → 高品質データで仕上げ → 強化学習(DiffusionNFT)で「良い結果」に寄せる
  • 推論の高速化:モデル本体を5Bパラメータに絞り、CFG蒸留とステップ蒸留で「短い手順で同じ味」を出せるよう圧縮
  • プロンプト書き換え:ユーザーのざっくりした指示を専用モデルがAI向けに翻訳

Results

どんな結果が出たか

独自ベンチマーク「Tstars-VTON」(465スタイル・1〜6点の重ね着シナリオを含む1,780サンプル)での総合スコアで、Nano Banana Pro(Google)、GPT-Image-1.5(OpenAI)、Seedream 5.0 lite(ByteDance)など主要商用モデルを上回りました。

スピード差が劇的 です。単品試着で 3.92秒 、6点の複雑コーデでも 6.74秒 。比較対象のオープンソースモデル(QwenEdit-2511、Flux.2 dev)は約200秒かかっており、​実に50倍速い 計算になります。

人間による主観評価でも、アイテム数が増えるほど差が開き、5着のコーデではSeedream5 liteに対して勝率 70.2% 、Nano Banana Proに対しても 54.8% の勝率を記録。つまり「複雑になるほど強い」という特性が確認されました。

Key Point

なぜ重要か

このモデルは既にタオバオ(淘宝)アプリで「AI Try-On」として公開されており、​数百万ユーザーが数千万件の試着を実行済み 。論文執筆時点で「世界最大級の本番稼働バーチャル試着」と主張しています。

ビジネス視点で重要なのは、​​「品質とコストのトレードオフを壊した」​ という点です。従来、商用レベルの品質を出すには200秒級の重いモデルが必要で、これを何千万ユーザーに配るのは経済的に非現実的でした。それが数秒レベルに落ちたことで、ECサイトの商品ページに「試着ボタン」を標準装備することが現実解になります。

アパレルEC業界では、返品率の高さ(ネット通販の返品の約3割がサイズ・イメージ違い)が長年の課題。試着AIが普及すれば返品率低下、配送コスト削減、顧客満足度向上という連鎖が起きえます。さらに、ペットや3Dアバター、アニメキャラにも服を着せられる柔軟性は、SNSコンテンツ制作やゲーム業界への波及も期待させます。日本でも楽天・ZOZOなどが同様の技術投入を加速する可能性が高いでしょう。

From the Host

解説者ノート

個人的に一番驚いたのは 速度の桁違いさ です。200秒→4秒は、デモ用技術を日用品に変える決定的な一線。論文としては「新しい理論的発見」というより「商用化フルスタックの教科書」という趣で、データ収集・評価設計・蒸留まで全部やり切った力技に凄みを感じます。一方、評価自体がVLM(大規模言語モデル)による採点に依存している点は少し引っかかる部分。「AIがAIを採点する」構図なので、人間評価との整合性を今後もっと深掘りしてほしいところです。日本のアパレルECでいつ同等サービスが出るか、要注目。

キーワード

MMDiT(マルチモーダル拡散Transformer)

文章・人物画像・服の画像など複数の情報を一つのAIの中で同時に扱える設計。従来は別々に処理していた

インペインティング

画像の一部を隠して「そこを描き直す」やり方。従来の試着AIの主流だが、背景や体型が変わりやすい

CFG蒸留 / ステップ蒸留

「長い手順で丁寧に作る生成AI」を「短い手順で同じ品質を出す」よう圧縮するテクニック。推論高速化の鍵

強化学習(DiffusionNFT)

AIの出力に「良い・悪い」の報酬を与え、良い方向に寄せる追加学習。服の質感や姿勢の破綻を減らす仕上げ工程

ゼロショット汎化

学習に使わなかった種類のデータでも性能を発揮すること。VITON-HDで学習せずにSOTAを出した点が該当

論文情報

2604 19748

トランスクリプト

K

かなで

はじまりました、放課後論文ラジオです。
Y

ゆい

ゆいです!
K

かなで

かなでです。
Y

ゆい

この番組は、最新のAI研究を2人で読み解きながらお届けしてます!
K

かなで

今日もよろしくお願いします。
Y

ゆい

ねえねえ、かなで先輩、聞いてよー。

EP.016|#16 試着AIが4秒で返ってくる時代