放課後論文ラジオ
放課後論文ラジオ
EP.020

#20 AIが動画の「時間の流れ」を見抜く

早送り・スロー再生を92%で検出、速度指定の動画生成も実現

2026年4月27日

番組ノート

今回の論文

  • タイトル: Seeing Fast and Slow: Learning the Flow of Time in Videos
  • 著者: Yen-Siang Wu et al.(Cornell University, 国立台湾大学, ワシントン大学)
  • 発表: 2026年4月(arXiv)

このエピソードのポイント

  • AIは普通の動画ばかり学んでいるので「早送り」「スロー再生」を見分けられない、という盲点に挑戦
  • 音のピッチが変わる現象を利用して、人間がラベルを付けなくてもAIが速度を学べる仕組みを開発
  • 速度変化の検出精度92.4%を達成し、「指定した速度で動く動画」の生成にも成功
#放課後論文ラジオ#AI#機械学習#動画生成#スローモーション#自己教師あり学習#コンピュータビジョン

論文を読み解く

Overview

ひと言でいうと

動画が早送りされているか・スロー再生されているかをAIが見抜き、さらに「指定した速度で動く動画」を生成できるようにした研究。時間そのものを操作可能な「視覚的な軸」として扱えるようにした技術です。

Background

背景

人間は、波紋が異常に速く広がったり、人の動作が妙にスローだったりすると、直感的に「これは早送り/スロー再生だ」と気づけます。ところが最新のAI動画モデルは、この当たり前の感覚を持っていません。GeminiのようなトップクラスのAIに「この動画の再生速度は?」と聞いても見当違いの答えが返ってくることが多く、「スローモーションで生成して」と頼んでも指示通りにならない。

理由はシンプルで、AIが学んでいる動画は普通の30fps前後のものばかりだから。1種類のテンポしか知らないAIに「時間の伸び縮み」を理解させるのは無理があります。本研究は、この「AIにとっての時間の盲点」を埋めることを目指しました。

Novelty

何が新しいか

著者たちは、人間がラベルを付けなくても済む2つの賢い仕掛けを考えました。

仕掛け1:音のピッチを利用する。​ 動画を早送りすると音が高くなり、スローにすると低くなる物理現象を逆手に取り、「音の高さが急変する瞬間=速度が変わった瞬間」として自動的にラベルを作る。これでAIは、見た目だけから速度変化を検出できるようになります(推論時には音は使わない)。

仕掛け2:「比例関係」を学習信号にする。​ ある動画を2倍速にしたら、AIの予測する速度も2倍になるべき。この当たり前の関係をAIに守らせることで、正解ラベルなしに速度推定能力が身につく。著者はこれを「時間方向の対称性」と呼んでいます。

これらを使って、ネット上の雑多なスロー動画を自動でラベル付けし、 SloMo-44K という史上最大規模のスロー動画データセット(4.4万クリップ、1800万フレーム、最大1万fps以上)を構築。これを使って「速度を指定して動画を生成する」「ボケた低フレームレート動画を高フレームレート動画に変換する」モデルまで作りました。

Results

どんな結果が出たか

  • 速度変化の検出:精度 92.4% を達成。Gemini 2.5(59.5%)や光学フローを使った手法(80.4%)を大きく上回る。
  • 再生速度の推定:人間の専門家に迫る精度。Pearson相関係数で人間が0.88、提案手法が0.735と、既存の最良手法(0.508)から大きく前進。
  • 時間的超解像(低fps動画を高fps化)​:ブレた入力でも、人間の好みで 80.3% が提案手法を選択。実世界動画では9割超が提案手法を支持。
  • 速度指定での動画生成:従来モデルは「ultra slow」「slow」と指示してもほぼ同じ速度の動画しか作れなかったのに対し、提案手法は指定速度に応じて動きの量がきれいに連動。

実際、映画『X-MEN』のスローモーション演出シーンに適用したら、速度切替の瞬間を正確に検出できたとのこと。

Key Point

なぜ重要か

この研究は、地味に見えて応用範囲が広いです。

動画フォレンジック(真贋判定)​:SNSやニュース動画で「実は早送りで誇張されている」「スローで印象操作されている」を機械的に検出できる可能性。フェイク動画対策の新しい武器になり得ます。

コンテンツ制作:CMやMV、スポーツ映像で「指定の速度のスロー映像」を実写撮影なしに生成できる。高速度カメラを持っていなくても、生成AIで類似の表現が可能になります。

動画の高品質化:古いビデオや低スペックのスマホで撮ったブレたフッテージを、なめらかなスロー映像に再生成できる。監視カメラ映像の解析、スポーツ分析、医療映像(手術や運動の解析)など実用的な応用が広がります。

AIの世界モデル:もっと深い意味では、AIが「物事がどれくらいの速度で起こるか」という物理的な常識を獲得する一歩。ロボティクスやシミュレーションで、よりリアルな世界理解につながる可能性があります。

From the Host

解説者ノート

個人的に面白かったのは「音のピッチ変化を視覚モデルの教師信号にする」という発想。音と映像という別モーダルを橋渡しするアイデアは、ラベル付けコストが大きな課題のAI研究において、再現性の高い解決策の一例だと感じました。一方、論文も認めている通り、人がわざとゆっくり動いている動画などは騙されやすい。「物理的な遅さ」と「演技の遅さ」をどう区別するかは今後の宿題ですね。動画フォレンジック分野での実装が早く見たいところです。

キーワード

自己教師あり学習

人間がラベルを付けなくても、データの中にある規則性を使ってAIが自分で学ぶ仕組み

時間と周波数のスケーリング

動画を早送りすると音が高くなる、という物理現象。再生速度と音の高さがリンクする

等変性(equivariance)

入力をX倍にすると出力もX倍になる、という比例関係。これをAIに守らせると教師なしで学習できる

時間的超解像

低fpsのカクカク動画を、なめらかな高fps動画に変換する技術

スローモーションデータセット

高速度カメラで撮影された、通常より遥かに細かい時間情報を含む動画の集まり

速度条件付き生成

「0.1倍速で動く動画を作って」のように、速度を指定してAIに動画を生成させる仕組み

論文情報

2604 21931

トランスクリプト

K

かなで

はじまりました、放課後論文ラジオです。
Y

ゆい

ゆいです!
K

かなで

かなでです。
Y

ゆい

この番組は、最新のAI研究を2人で読み解きながらお届けしてます!
K

かなで

今日もよろしくね、ゆい。
Y

ゆい

よろしく〜。ねえ、かなで先輩、聞いてよ。

EP.020|#20 AIが動画の「時間の流れ」を見抜く