
#20 AIが動画の「時間の流れ」を見抜く
早送り・スロー再生を92%で検出、速度指定の動画生成も実現
2026年4月27日
番組ノート
今回の論文
- タイトル: Seeing Fast and Slow: Learning the Flow of Time in Videos
- 著者: Yen-Siang Wu et al.(Cornell University, 国立台湾大学, ワシントン大学)
- 発表: 2026年4月(arXiv)
このエピソードのポイント
- AIは普通の動画ばかり学んでいるので「早送り」「スロー再生」を見分けられない、という盲点に挑戦
- 音のピッチが変わる現象を利用して、人間がラベルを付けなくてもAIが速度を学べる仕組みを開発
- 速度変化の検出精度92.4%を達成し、「指定した速度で動く動画」の生成にも成功
論文を読み解く
Overview
ひと言でいうと
動画が早送りされているか・スロー再生されているかをAIが見抜き、さらに「指定した速度で動く動画」を生成できるようにした研究。時間そのものを操作可能な「視覚的な軸」として扱えるようにした技術です。
Background
背景
人間は、波紋が異常に速く広がったり、人の動作が妙にスローだったりすると、直感的に「これは早送り/スロー再生だ」と気づけます。ところが最新のAI動画モデルは、この当たり前の感覚を持っていません。GeminiのようなトップクラスのAIに「この動画の再生速度は?」と聞いても見当違いの答えが返ってくることが多く、「スローモーションで生成して」と頼んでも指示通りにならない。
理由はシンプルで、AIが学んでいる動画は普通の30fps前後のものばかりだから。1種類のテンポしか知らないAIに「時間の伸び縮み」を理解させるのは無理があります。本研究は、この「AIにとっての時間の盲点」を埋めることを目指しました。
Novelty
何が新しいか
著者たちは、人間がラベルを付けなくても済む2つの賢い仕掛けを考えました。
仕掛け1:音のピッチを利用する。 動画を早送りすると音が高くなり、スローにすると低くなる物理現象を逆手に取り、「音の高さが急変する瞬間=速度が変わった瞬間」として自動的にラベルを作る。これでAIは、見た目だけから速度変化を検出できるようになります(推論時には音は使わない)。
仕掛け2:「比例関係」を学習信号にする。 ある動画を2倍速にしたら、AIの予測する速度も2倍になるべき。この当たり前の関係をAIに守らせることで、正解ラベルなしに速度推定能力が身につく。著者はこれを「時間方向の対称性」と呼んでいます。
これらを使って、ネット上の雑多なスロー動画を自動でラベル付けし、 SloMo-44K という史上最大規模のスロー動画データセット(4.4万クリップ、1800万フレーム、最大1万fps以上)を構築。これを使って「速度を指定して動画を生成する」「ボケた低フレームレート動画を高フレームレート動画に変換する」モデルまで作りました。
Results
どんな結果が出たか
- 速度変化の検出:精度 92.4% を達成。Gemini 2.5(59.5%)や光学フローを使った手法(80.4%)を大きく上回る。
- 再生速度の推定:人間の専門家に迫る精度。Pearson相関係数で人間が0.88、提案手法が0.735と、既存の最良手法(0.508)から大きく前進。
- 時間的超解像(低fps動画を高fps化):ブレた入力でも、人間の好みで 80.3% が提案手法を選択。実世界動画では9割超が提案手法を支持。
- 速度指定での動画生成:従来モデルは「ultra slow」「slow」と指示してもほぼ同じ速度の動画しか作れなかったのに対し、提案手法は指定速度に応じて動きの量がきれいに連動。
実際、映画『X-MEN』のスローモーション演出シーンに適用したら、速度切替の瞬間を正確に検出できたとのこと。
Key Point
なぜ重要か
この研究は、地味に見えて応用範囲が広いです。
動画フォレンジック(真贋判定):SNSやニュース動画で「実は早送りで誇張されている」「スローで印象操作されている」を機械的に検出できる可能性。フェイク動画対策の新しい武器になり得ます。
コンテンツ制作:CMやMV、スポーツ映像で「指定の速度のスロー映像」を実写撮影なしに生成できる。高速度カメラを持っていなくても、生成AIで類似の表現が可能になります。
動画の高品質化:古いビデオや低スペックのスマホで撮ったブレたフッテージを、なめらかなスロー映像に再生成できる。監視カメラ映像の解析、スポーツ分析、医療映像(手術や運動の解析)など実用的な応用が広がります。
AIの世界モデル:もっと深い意味では、AIが「物事がどれくらいの速度で起こるか」という物理的な常識を獲得する一歩。ロボティクスやシミュレーションで、よりリアルな世界理解につながる可能性があります。
From the Host
解説者ノート
個人的に面白かったのは「音のピッチ変化を視覚モデルの教師信号にする」という発想。音と映像という別モーダルを橋渡しするアイデアは、ラベル付けコストが大きな課題のAI研究において、再現性の高い解決策の一例だと感じました。一方、論文も認めている通り、人がわざとゆっくり動いている動画などは騙されやすい。「物理的な遅さ」と「演技の遅さ」をどう区別するかは今後の宿題ですね。動画フォレンジック分野での実装が早く見たいところです。
キーワード
自己教師あり学習
人間がラベルを付けなくても、データの中にある規則性を使ってAIが自分で学ぶ仕組み
時間と周波数のスケーリング
動画を早送りすると音が高くなる、という物理現象。再生速度と音の高さがリンクする
等変性(equivariance)
入力をX倍にすると出力もX倍になる、という比例関係。これをAIに守らせると教師なしで学習できる
時間的超解像
低fpsのカクカク動画を、なめらかな高fps動画に変換する技術
スローモーションデータセット
高速度カメラで撮影された、通常より遥かに細かい時間情報を含む動画の集まり
速度条件付き生成
「0.1倍速で動く動画を作って」のように、速度を指定してAIに動画を生成させる仕組み
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい