
#10 スマホを操るAIを誰でも作れる時代へ
2Bモデルが72Bモデルを超えた、GUIエージェント開発基盤ClawGUI
2026年4月17日
番組ノート
今回の論文
- タイトル: ClawGUI: A Unified Framework for Training, Evaluating, and Deploying GUI Agents
- 著者: Fei Tang, Zhiqiong Lu et al.(浙江大学)
- 発表: 2026年4月(arXiv)
このエピソードのポイント
- スマホ画面をタップ・スワイプで操作するAI「GUIエージェント」を、訓練・評価・実機運用まで丸ごとオープンソース化
- 1ステップごとに採点する仕組みで、2Bの小さなモデルが36倍大きい72Bモデルを上回る成功率を達成
- LINEやSlack感覚でスマホを遠隔操作できる時代が現実に。APIのない業務アプリが多い日本でも応用が広がりそう
論文を読み解く
Overview
ひと言でいうと
スマホやPCの画面を「人間のようにタップ・スワイプ」して操作するAIエージェントを、訓練から評価、そして実機での運用までワンストップで行えるようにしたオープンソースの基盤技術。
Background
背景
ChatGPTのようなAIに「航空券を予約して」と頼んだとき、裏でAPIを使うのではなく、実際にアプリを開いてタップやスワイプで操作してくれるAI — これが「GUIエージェント」です。APIが存在しないアプリにも対応できるので、理想のデジタル自動化とされています。
ところがここ2年、研究は盛んなものの、大きな壁がありました。①訓練基盤が非公開で、各社が自社の仮想環境で強化学習をしているものの、誰も中身を公開していない。②評価方法がバラバラで、同じベンチマークでも論文ごとに数字が比較できない。③実機で動く完成品がほとんどない — 研究止まりで、実際のユーザーの手に届かない。この三つの穴を同時に塞ぐ必要がありました。
Novelty
何が新しいか
ClawGUIは3つのモジュールを一体化しています。
ClawGUI-RL(訓練): Androidエミュレータを何十台も並列で動かしながら強化学習する仕組みを、初めてオープンソースで公開。しかも実機のスマホでも訓練可能。面白いのは「Process Reward Model」の導入で、従来は「タスクを達成できたか/失敗したか」の0/1評価しか与えられなかったのを、1ステップごとに「この操作は有効だったか」を採点する仕組みに変えた点。長い手順のどこが良かった/悪かったかを学習できるようになりました。
ClawGUI-Eval(評価): プロンプトの書き方、座標の正規化ルール、画像解像度といった「地味だが結果を数%動かす設定」をモデルごとに厳密に固定。6つのベンチマーク × 11以上のモデルで、公式発表との**再現率95.8%**を達成しました。
ClawGUI-Agent(運用): 訓練済みエージェントをAndroid、HarmonyOS、iOSの実機に載せ、LINE的なチャットアプリ(Feishu、Telegram、Slackなど12以上)から自然言語で操作できるように。CLI(コマンド)とGUI(画面操作)を自動で切り替え、ユーザーごとの好みを覚える記憶機能も搭載。
Results
どんな結果が出たか
この基盤で訓練したClawGUI-2B(20億パラメータ)は、MobileWorldというスマホ操作ベンチマークで成功率17.1%を達成。同じサイズのベース版MAI-UI-2B(11.1%)を相対6.0ポイント上回り、さらに36倍大きいUI-Venus-72B(16.4%)や、Qwen3-VL-32B(11.9%)も超えました。「訓練基盤をきちんと作れば、小さいモデルでも大きなモデルに勝てる」という象徴的な結果です。
また、アルゴリズム比較では、従来のエピソード単位で報酬を与えるGRPOから、ステップ単位で報酬を与えるGiGPOに切り替えるだけで、14.5%→17.1%と相対17.9%の改善。「どの一手が効いたか」を細かく評価することの重要性が実証されました。
Key Point
なぜ重要か
「AIが人間の代わりにスマホを操作する」という世界は、もはやSFではなく技術的には可能な段階に来ています。しかしこれまで、論文で「できた」と主張されても、そのコードは公開されず、数字も論文間で比較できず、ましてや自分のスマホで試すことはできませんでした。
ClawGUIはそのギャップをすべて埋めるオープンソースです。これが意味するのは、(1) 中小企業や研究者でも独自のGUIエージェントを訓練できる、(2) 論文の数字が初めて信頼できる土俵に乗る、(3) LINEやSlackに話しかけるだけでスマホを遠隔操作できる実用サービスの雛形ができた、ということ。
ビジネス視点では、例えば「顧客からのチャット依頼を受けて社内の業務アプリを自動操作する」「高齢の家族のスマホ操作をチャット経由で代行する」「テスト自動化を自然言語で指示する」といった応用が現実味を帯びてきます。特に、APIを持たない老舗業務アプリが多い日本では、画面操作で何でも動かせるGUIエージェントのニーズは大きいはずです。
From the Host
解説者ノート
個人的に面白いと感じたのは「2Bモデルが72Bモデルを超えた」結果です。モデルの巨大化競争が続く中、「訓練環境と報酬設計をきちんとすれば小さいモデルでも勝てる」というのは、コスト制約のある現場に希望を与えます。一方で、Gemini-3-Pro + 専用モジュールの組み合わせは55.6%と圧倒的で、「フロンティアモデル + ツール構成」という別路線の強さも際立ちました。実機での訓練がまだ「人手で作ったタスク集」に頼る点は今後の課題で、ここが自動化されると一気にスケールしそうです。
キーワード
GUIエージェント
人間と同じように画面を見て、タップ・スワイプで操作するAI。APIがないアプリでも動かせる
オンライン強化学習
AIが実際に試行錯誤しながら「うまくいった行動」を学習する方式。決まった教科書ではなく、現場で学ぶイメージ
Process Reward Model (PRM)
最終結果だけでなく「途中の一手一手」に点数をつける仕組み。将棋の棋譜検討に近い
GiGPO
一連の操作を「場面」ごとにグループ分けして、どの場面でどの手が良かったかを細かく評価するアルゴリズム
再現率
他の論文が発表した数字を、同じ条件でやり直したときに再現できた割合。科学の信頼性の基礎
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい