EP.020

#20 AIが動画の「時間の流れ」を見抜く

早送り・スロー再生を92%で検出、速度指定の動画生成も実現

2026年4月27日

RSS

番組ノート

今回の論文

タイトル: Seeing Fast and Slow: Learning the Flow of Time in Videos
著者: Yen-Siang Wu et al.（Cornell University, 国立台湾大学, ワシントン大学）
発表: 2026年4月（arXiv）

このエピソードのポイント

AIは普通の動画ばかり学んでいるので「早送り」「スロー再生」を見分けられない、という盲点に挑戦
音のピッチが変わる現象を利用して、人間がラベルを付けなくてもAIが速度を学べる仕組みを開発
速度変化の検出精度92.4%を達成し、「指定した速度で動く動画」の生成にも成功

#放課後論文ラジオ#AI#機械学習#動画生成#スローモーション#自己教師あり学習#コンピュータビジョン

論文を読み解く

Overview

ひと言でいうと

動画が早送りされているか・スロー再生されているかをAIが見抜き、さらに「指定した速度で動く動画」を生成できるようにした研究。時間そのものを操作可能な「視覚的な軸」として扱えるようにした技術です。

Background

背景

人間は、波紋が異常に速く広がったり、人の動作が妙にスローだったりすると、直感的に「これは早送り／スロー再生だ」と気づけます。ところが最新のAI動画モデルは、この当たり前の感覚を持っていません。GeminiのようなトップクラスのAIに「この動画の再生速度は？」と聞いても見当違いの答えが返ってくることが多く、「スローモーションで生成して」と頼んでも指示通りにならない。

理由はシンプルで、AIが学んでいる動画は普通の30fps前後のものばかりだから。1種類のテンポしか知らないAIに「時間の伸び縮み」を理解させるのは無理があります。本研究は、この「AIにとっての時間の盲点」を埋めることを目指しました。

Novelty

何が新しいか

著者たちは、人間がラベルを付けなくても済む2つの賢い仕掛けを考えました。

仕掛け1：音のピッチを利用する。 動画を早送りすると音が高くなり、スローにすると低くなる物理現象を逆手に取り、「音の高さが急変する瞬間＝速度が変わった瞬間」として自動的にラベルを作る。これでAIは、見た目だけから速度変化を検出できるようになります（推論時には音は使わない）。

仕掛け2：「比例関係」を学習信号にする。 ある動画を2倍速にしたら、AIの予測する速度も2倍になるべき。この当たり前の関係をAIに守らせることで、正解ラベルなしに速度推定能力が身につく。著者はこれを「時間方向の対称性」と呼んでいます。

これらを使って、ネット上の雑多なスロー動画を自動でラベル付けし、 SloMo-44K という史上最大規模のスロー動画データセット（4.4万クリップ、1800万フレーム、最大1万fps以上）を構築。これを使って「速度を指定して動画を生成する」「ボケた低フレームレート動画を高フレームレート動画に変換する」モデルまで作りました。

Results

どんな結果が出たか

速度変化の検出：精度 92.4% を達成。Gemini 2.5（59.5%）や光学フローを使った手法（80.4%）を大きく上回る。
再生速度の推定：人間の専門家に迫る精度。Pearson相関係数で人間が0.88、提案手法が0.735と、既存の最良手法（0.508）から大きく前進。
時間的超解像（低fps動画を高fps化）：ブレた入力でも、人間の好みで 80.3% が提案手法を選択。実世界動画では9割超が提案手法を支持。
速度指定での動画生成：従来モデルは「ultra slow」「slow」と指示してもほぼ同じ速度の動画しか作れなかったのに対し、提案手法は指定速度に応じて動きの量がきれいに連動。

実際、映画『X-MEN』のスローモーション演出シーンに適用したら、速度切替の瞬間を正確に検出できたとのこと。

Key Point

なぜ重要か

この研究は、地味に見えて応用範囲が広いです。

動画フォレンジック（真贋判定）：SNSやニュース動画で「実は早送りで誇張されている」「スローで印象操作されている」を機械的に検出できる可能性。フェイク動画対策の新しい武器になり得ます。

コンテンツ制作：CMやMV、スポーツ映像で「指定の速度のスロー映像」を実写撮影なしに生成できる。高速度カメラを持っていなくても、生成AIで類似の表現が可能になります。

動画の高品質化：古いビデオや低スペックのスマホで撮ったブレたフッテージを、なめらかなスロー映像に再生成できる。監視カメラ映像の解析、スポーツ分析、医療映像（手術や運動の解析）など実用的な応用が広がります。

AIの世界モデル：もっと深い意味では、AIが「物事がどれくらいの速度で起こるか」という物理的な常識を獲得する一歩。ロボティクスやシミュレーションで、よりリアルな世界理解につながる可能性があります。

From the Host

解説者ノート

個人的に面白かったのは「音のピッチ変化を視覚モデルの教師信号にする」という発想。音と映像という別モーダルを橋渡しするアイデアは、ラベル付けコストが大きな課題のAI研究において、再現性の高い解決策の一例だと感じました。一方、論文も認めている通り、人がわざとゆっくり動いている動画などは騙されやすい。「物理的な遅さ」と「演技の遅さ」をどう区別するかは今後の宿題ですね。動画フォレンジック分野での実装が早く見たいところです。

キーワード

自己教師あり学習

人間がラベルを付けなくても、データの中にある規則性を使ってAIが自分で学ぶ仕組み

時間と周波数のスケーリング

動画を早送りすると音が高くなる、という物理現象。再生速度と音の高さがリンクする

等変性（equivariance）

入力をX倍にすると出力もX倍になる、という比例関係。これをAIに守らせると教師なしで学習できる

時間的超解像

低fpsのカクカク動画を、なめらかな高fps動画に変換する技術

スローモーションデータセット

高速度カメラで撮影された、通常より遥かに細かい時間情報を含む動画の集まり

速度条件付き生成

「0.1倍速で動く動画を作って」のように、速度を指定してAIに動画を生成させる仕組み

論文情報

2604 21931

arXivで読む alphaXivで読む

トランスクリプト

かなで

はじまりました、放課後論文ラジオです。

ゆい

ゆいです！

かなで

かなでです。

ゆい

この番組は、最新のAI研究を2人で読み解きながらお届けしてます！

かなで

今日もよろしくね、ゆい。

ゆい

よろしく〜。ねえ、かなで先輩、聞いてよ。

←前のエピソード

EP.019 #19 AIが2Dゲームを丸ごと作る時代

次のエピソード→

EP.021 #21 AIは世界をどこまで理解しているか

EP.020|#20 AIが動画の「時間の流れ」を見抜く

--:--/--:--