EP.016

#16 試着AIが4秒で返ってくる時代

タオバオが実運用する、数十倍速のバーチャル試着

2026年4月22日

RSS

番組ノート

今回の論文

タイトル: Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items
著者: Mengting Chen et al.（Taobao / アリババ Pailitaoチーム）
発表: 2026年4月

このエピソードのポイント

自撮り写真に、最大6点の服・バッグ・帽子などを一気に着せ替えできる商用試着AI
他社モデルが200秒かかるところを、約4〜7秒で返すという桁違いのスピード
すでにタオバオで数千万件が実運用。ECの返品率問題に効く「現実解」になりつつある

#放課後論文ラジオ#AI#バーチャル試着#ファッションテック#EC#画像生成AI#タオバオ

論文を読み解く

Overview

ひと言でいうと

スマホで自撮りするだけで、トップス・パンツ・靴・バッグ・帽子など最大6点までの服を自分に着せ替えさせ、しかも数秒で結果が返ってくる —— タオバオ（淘宝）が実際に数千万件の試着リクエストをさばいている、商用レベルのバーチャル試着AI。

Background

背景

「ネットで服を買う前に、自分が着た姿を見たい」というのは誰もが抱く欲求です。画像生成AI（Stable DiffusionやGPT-Imageなど）の進化で、バーチャル試着は現実味を帯びてきました。

しかし実用化には厚い壁があります。研究用データセットはスタジオで撮った綺麗な全身写真と、白背景に置かれたきちんとした商品画像ばかり。一方、実際のユーザーが送ってくる写真は、極端なポーズ、逆光、ブレ、複雑な背景など、現実の「生々しさ」に満ちています。また、上着・インナー・パンツ・靴・バッグ・帽子といった複数アイテムを同時にコーディネートさせたいという要望にも応えなければなりません。加えて、ECサイトで使うなら「数秒で返す」スピードも必須。この「頑健さ・忠実さ・柔軟さ・速さ」を同時に満たすモデルは、これまで存在しませんでした。

Novelty

何が新しいか

ポイントは、バーチャル試着を「塗りつぶし（インペインティング）」ではなく「画像編集タスク」として扱い直した こと。従来のように「体の一部をマスクしてそこに服を描く」のではなく、複数の参照画像（人物1枚＋服や小物を最大6枚）を一気に受け取り、それらを一つのTransformer（MMDiTアーキテクチャ）で協調的に処理します。

技術的な工夫を料理にたとえると：

データエンジン：多品目コーデの学習データが足りないので、画像を部品分解して自動でペアを作る仕組みを構築（食材の下ごしらえ工場）
多段階学習：まず一般的な画像編集で下地を作り → 高解像度で磨き → 高品質データで仕上げ → 強化学習（DiffusionNFT）で「良い結果」に寄せる
推論の高速化：モデル本体を5Bパラメータに絞り、CFG蒸留とステップ蒸留で「短い手順で同じ味」を出せるよう圧縮
プロンプト書き換え：ユーザーのざっくりした指示を専用モデルがAI向けに翻訳

Results

どんな結果が出たか

独自ベンチマーク「Tstars-VTON」（465スタイル・1〜6点の重ね着シナリオを含む1,780サンプル）での総合スコアで、Nano Banana Pro（Google）、GPT-Image-1.5（OpenAI）、Seedream 5.0 lite（ByteDance）など主要商用モデルを上回りました。

スピード差が劇的 です。単品試着で 3.92秒 、6点の複雑コーデでも 6.74秒 。比較対象のオープンソースモデル（QwenEdit-2511、Flux.2 dev）は約200秒かかっており、実に50倍速い 計算になります。

人間による主観評価でも、アイテム数が増えるほど差が開き、5着のコーデではSeedream5 liteに対して勝率 70.2% 、Nano Banana Proに対しても 54.8% の勝率を記録。つまり「複雑になるほど強い」という特性が確認されました。

Key Point

なぜ重要か

このモデルは既にタオバオ（淘宝）アプリで「AI Try-On」として公開されており、数百万ユーザーが数千万件の試着を実行済み 。論文執筆時点で「世界最大級の本番稼働バーチャル試着」と主張しています。

ビジネス視点で重要なのは、「品質とコストのトレードオフを壊した」 という点です。従来、商用レベルの品質を出すには200秒級の重いモデルが必要で、これを何千万ユーザーに配るのは経済的に非現実的でした。それが数秒レベルに落ちたことで、ECサイトの商品ページに「試着ボタン」を標準装備することが現実解になります。

アパレルEC業界では、返品率の高さ（ネット通販の返品の約3割がサイズ・イメージ違い）が長年の課題。試着AIが普及すれば返品率低下、配送コスト削減、顧客満足度向上という連鎖が起きえます。さらに、ペットや3Dアバター、アニメキャラにも服を着せられる柔軟性は、SNSコンテンツ制作やゲーム業界への波及も期待させます。日本でも楽天・ZOZOなどが同様の技術投入を加速する可能性が高いでしょう。

From the Host

解説者ノート

個人的に一番驚いたのは 速度の桁違いさ です。200秒→4秒は、デモ用技術を日用品に変える決定的な一線。論文としては「新しい理論的発見」というより「商用化フルスタックの教科書」という趣で、データ収集・評価設計・蒸留まで全部やり切った力技に凄みを感じます。一方、評価自体がVLM（大規模言語モデル）による採点に依存している点は少し引っかかる部分。「AIがAIを採点する」構図なので、人間評価との整合性を今後もっと深掘りしてほしいところです。日本のアパレルECでいつ同等サービスが出るか、要注目。

キーワード

MMDiT（マルチモーダル拡散Transformer）

文章・人物画像・服の画像など複数の情報を一つのAIの中で同時に扱える設計。従来は別々に処理していた

インペインティング

画像の一部を隠して「そこを描き直す」やり方。従来の試着AIの主流だが、背景や体型が変わりやすい

CFG蒸留 / ステップ蒸留

「長い手順で丁寧に作る生成AI」を「短い手順で同じ品質を出す」よう圧縮するテクニック。推論高速化の鍵

強化学習（DiffusionNFT）

AIの出力に「良い・悪い」の報酬を与え、良い方向に寄せる追加学習。服の質感や姿勢の破綻を減らす仕上げ工程

ゼロショット汎化

学習に使わなかった種類のデータでも性能を発揮すること。VITON-HDで学習せずにSOTAを出した点が該当

論文情報

2604 19748

arXivで読む alphaXivで読む

トランスクリプト

かなで

はじまりました、放課後論文ラジオです。

ゆい

ゆいです！

かなで

かなでです。

ゆい

この番組は、最新のAI研究を2人で読み解きながらお届けしてます！

かなで

今日もよろしくお願いします。

ゆい

ねえねえ、かなで先輩、聞いてよー。

←前のエピソード

EP.015 #15 AIの答えが金太郎飴になる正体

次のエピソード→

EP.017 #17 AIエージェントを育てる無限の訓練場

EP.016|#16 試着AIが4秒で返ってくる時代

--:--/--:--