
#28 90万円で動く「考えるロボット」の正体
完全オープンソースのロボット基盤モデルMolmoAct2を読む
2026年5月6日
番組ノート
今回の論文
- タイトル: MolmoAct2: Action Reasoning Models for Real-World Deployment
- 著者: Haoquan Fang, Jiafei Duan et al.(Allen Institute for AI / ワシントン大学ほか)
- 発表: 2026年5月(arXiv)
このエピソードのポイント
- 約90万円の安価な機材セットで動く、完全オープンソースのロボット基盤モデルが登場
- 画面で「変化した部分だけ」奥行きを再計算する省エネ思考で、考えながらも速く動ける
- 未知の環境での実機テストで成功率87.1%。次点に38ポイント以上の大差をつけた
論文を読み解く
Overview
ひと言でいうと
高価な専用ロボットを必要とせず、安価な機材でもすぐ動かせて、しかも空間を「目で見て理解しながら」動作する、完全オープンソースのロボット制御AI(VLA:Vision-Language-Action モデル)を実現した研究。
Background
背景
ChatGPTのような大規模言語モデルは画面の中で大活躍していますが、「キッチンで皿を洗う」「倉庫で荷物を仕分ける」といった物理世界の作業となると話は別です。一台のAIで多種多様な作業をこなせる「汎用ロボット頭脳」を作ろうという研究(VLAモデル)は急速に進歩してきました。
しかし、現実の現場で使うには4つの壁がありました。(1) Google やPhysical Intelligence社などの最先端モデルは中身が非公開、(2) 公開されているものも数百万円する専用ロボット前提、(3) 「考えてから動く」タイプのモデルは思考に時間がかかりすぎてリアルタイム制御に向かない、(4) そもそも成功率が実用ラインに届かない。この4つを同時に解決しようとしたのが本研究です。
Novelty
何が新しいか
MolmoAct2の工夫は5点あります。
①空間認識に特化した目(Molmo2-ER):物体までの距離、空きスペース、複数カメラ間の対応など、ロボットに必要な空間把握スキルだけを集中的に330万件のデータで訓練した視覚言語モデル。
②3つの大規模オープンデータセット:低〜中価格帯のロボット3種(双腕型YAM、超低価格のSO-100/101、Franka)向けに、合計720時間以上の作業データを公開。特にYAMの720時間は 公開されている双腕ロボットデータとして史上最大 。
③連続動作と離散トークンのハイブリッド:脳(言語モデル)とは別に「動作専門家」モジュールを設け、両者を各層のキー・バリューキャッシュで結ぶ新設計。脳の各階層の思考に直接アクセスして滑らかな動作を生成します。
④適応的な深度推論(MolmoAct2-Think):動作前に「シーンの奥行き」を考えるのですが、画面の中で変化した部分だけ再計算することで思考時間を大幅短縮。動画圧縮で「動いた部分だけ送る」のと同じ発想です。
Results
どんな結果が出たか
13種類の空間推論ベンチマークでGPT-5やGoogleのGemini Robotics ER-1.5を上回り、平均63.8%(前バージョンから17ポイント向上)を達成。ロボット制御では、シミュレーション・実機合わせて7つの環境で最強ベースラインのπ0.5を全て上回り 、特に未知の物体・カメラ位置・環境という最も厳しい条件下のDROIDロボット実機テストでは 成功率87.1%(次点48.4%から38.7ポイント差) という大差をつけました。LIBEROベンチマークでは平均97.2%、8種類の実世界タスクでも平均50.1%(次点比+15%)。推論速度もCUDA Graph最適化で2.4倍高速化されました。
Key Point
なぜ重要か
ビジネス的に注目すべきは 「6,000ドル(約90万円)以下の機材セット」で動く という点です。これまで汎用ロボットAIは数千万円のハードウェア前提で、研究機関や大企業しか試せませんでした。本研究は中小企業や町工場、研究室、さらにはスタートアップでも導入できる価格帯で、洗い物・コーヒー店業務・実験室作業・在庫整理といった多様な仕事をこなせるレベルに達しています。
さらに モデルの重み・学習コード・データセット全てを公開 しているので、自社の特殊作業向けに微調整(ファインチューニング)も可能。論文では「数十回のデモンストレーションで新しい作業に適応できる」ことが示されています。労働力不足が深刻な物流、介護、外食、製造業の現場で、「専用ロボットを発注して半年待つ」ではなく「汎用ロボット+自社データで来週から運用」という選択肢が現実味を帯びてきました。OpenAI/Googleの非公開モデルに依存しない選択肢が登場した意味も大きいでしょう。
From the Host
解説者ノート
個人的に最も面白いと感じたのは「適応的深度推論」のアイデアです。動画圧縮の発想(変化した部分だけ送る)をAIの思考プロセスに持ち込んだ、エンジニアらしい現実的な解法で、思考の質を保ちつつ速度を稼ぐという二律背反をうまくいなしています。一方、実世界8タスクの平均成功率50%はまだ「無人運用」には遠く、人の見守りは必要なレベル。とはいえ完全オープンでこの水準まで来た意義は大きく、ここから1年でどこまで実用に迫れるか目が離せません。
キーワード
VLA(Vision-Language-Action)モデル
画像と言葉の指示を受け取って、ロボットの動作を直接出力するAI。「目」「耳」「手」を一つのモデルで担う
バックボーン(VLM)
ロボットAIの土台になる「目と頭脳」部分。Web画像で事前学習されている
ファインチューニング
既存のAIモデルに特定作業のデータを追加学習させて、その仕事用に仕立て直すこと
フローマッチング
滑らかな連続動作を生成するための数学的手法。ノイズから徐々にきれいな軌道を作り上げる
双腕(Bimanual)
両腕を協調させる作業。片手では難しい「服たたみ」「皿洗い」などに必要
適応的深度推論
画面で変化した場所の奥行きだけ計算し直す省エネ思考。ロボットの応答を速くする工夫
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい