
#39 AIはどこまで「見たこと」を覚えていられる?
画像必須の789問でAIの長期記憶を測るベンチマークMEMLENS
2026年5月18日
番組ノート
今回の論文
- タイトル: MEMLENS: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models
- 著者: Xiyu Ren et al.(香港科技大学、NVIDIA他)
- 発表: 2026年(arXiv)
このエピソードのポイント
- 画像を見ないと絶対に解けない789個の問題でAIの長期記憶を厳密に測定
- 長いコンテキストを直接読む方式と、要約して取り出すメモリーエージェント方式を同じ土俵で比較
- どちらの方式も単独では不十分。特に「複数の過去情報を組み合わせる推論」と「分からないと正直に言う力」が弱いことが判明
論文を読み解く
Overview
ひと言でいうと
画像と文字が混ざった長い会話をAIがどこまで「覚えていられるか」を、画像が無いと絶対に解けない問題で厳密に測定する、初の本格的なベンチマークを構築した研究。
Background
背景
ChatGPTやGeminiのような視覚も理解できるAI(LVLM)をアシスタントとして使い続けると、会話履歴に画像や情報がどんどん積み上がっていきます。AIが過去の情報を正しく覚えていなければ、一貫したやりとりはできません。
この「長期記憶」の実現には大きく2つの流派があります。ひとつは 長いコンテキストを直接処理する 方式(GPT-5やGeminiなど)、もうひとつは 過去の情報を要約・索引化して必要な部分だけ取り出す 「メモリーエージェント」方式です。
ところが、この2つを公平に比較できるベンチマークがありませんでした。既存のテストは文字情報だけで答えが出てしまったり、画像が「飾り」になっていたりして、本当のマルチモーダル記憶力を測れていなかったのです。
Novelty
何が新しいか
研究チームが作った MEMLENS の核心は、「画像を見ないと絶対に解けない」789個の問題を作り込んだ点です。
例えば「先週土曜、ゴールデンゲートブリッジでエマと何時に会った?」という質問。会話履歴には「あの橋(画像あり)で会った」としか書かれておらず、画像を見て初めて「あの橋=ゴールデンゲートブリッジ」と分かる仕掛けです。これを エンティティ抽象化 と呼んでいます。
問題は5つの記憶能力に分かれています:
- 情報抽出(特定の事実を思い出す)
- 複数セッション推論(複数の会話から情報を合成)
- 時間推論(時系列や期間の比較)
- 知識更新(好みの変化を追う)
- 回答拒否(情報がないときに「分からない」と言える)
さらに会話の長さを32K〜256Kトークンまで4段階に標準化し、長いコンテキスト型LVLM(27種類)とメモリーエージェント(7種類)を同じ土俵で比較しました。
Results
どんな結果が出たか
検証で 画像を取り除くと正答率が2%未満に崩壊 することが確認され、ベンチマークが本当に画像必須であることが裏付けられました。
主要な発見は3つ:
- 長コンテキスト型LVLM は短い会話(32K)では最高 58.7% と健闘するものの、会話が長くなると性能が大きく低下。特にハルシネーション抑制(回答拒否)が崩壊しやすい。
- メモリーエージェント は会話長による劣化は少ないが、画像情報を文字要約に圧縮する過程で視覚的細部が失われ、情報抽出系で大きく見劣りする。
- 複数セッション推論 はほぼ全モデルが 30% 未満で頭打ち。最強モデルでも本タスクは未解決。
つまり、どちらの方式も単独では長期記憶問題を解けていません。
Key Point
なぜ重要か
業務でAIアシスタントを長期間使う場面を想像してください。営業担当者が顧客との半年分のやりとり(写真や資料を含む)から「あの案件、結局いくらだったっけ?」と聞く。あるいは医療現場で「前回見せた検査画像と比べてどう?」と尋ねる。こうした 画像を含む長期記憶 は、AI実用化の本丸です。
この研究が示したのは、現状の最先端AIでも「画像を含む長い対話の記憶」は半分程度しか正しく扱えないという現実。特に 複数の過去情報を組み合わせて推論する タスクや 情報がないときに正直に「分からない」と言う 能力は致命的に弱い。
論文は「長コンテキスト処理」と「構造化された検索」を組み合わせたハイブリッド型が次の方向性だと示唆しています。AIエージェントを業務に組み込むなら、単純なコンテキスト拡大やRAGだけでは不十分で、画像レベルの証拠を保持する新しい記憶アーキテクチャが必要——これは導入検討中の企業が押さえておくべき重要な示唆です。
From the Host
解説者ノート
個人的に面白かったのは「メモリーエージェントを記憶用に追加学習させると、逆に『分からない』と言えなくなる」という発見。記憶を引き出すことだけを報酬にすると、データがなくても何か答えようとする副作用が出る——人間の社員教育にも通じる話で、評価指標の設計がいかに大切かを示しています。一方で、複数セッション推論が軒並み30%以下というのは厳しい現実で、ここを突破するアーキテクチャが今後の競争領域になりそうです。
キーワード
LVLM(大規模視覚言語モデル)
画像と文字の両方を理解できるAI。GPT-5やGeminiが代表例
メモリーエージェント
過去のやりとりを要約してデータベースに保存し、必要なときだけ取り出すAIの仕組み
長コンテキスト
AIが一度に読み込める情報量。256Kトークンなら本一冊分くらい
エンティティ抽象化
「ゴールデンゲートブリッジ」を「あの橋(画像)」と置き換える手法。画像を見ないと正解できなくする工夫
ハルシネーション
AIが情報がないのに、もっともらしく答えをでっち上げてしまう現象
回答拒否(Abstention)
「分からない」と正直に答える能力。誤情報を防ぐ要
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい