EP.039

#39 AIはどこまで「見たこと」を覚えていられる？

画像必須の789問でAIの長期記憶を測るベンチマークMEMLENS

2026年5月18日

RSS

番組ノート

今回の論文

タイトル: MEMLENS: Benchmarking Multimodal Long-Term Memory in Large Vision-Language Models
著者: Xiyu Ren et al.（香港科技大学、NVIDIA他）
発表: 2026年（arXiv）

このエピソードのポイント

画像を見ないと絶対に解けない789個の問題でAIの長期記憶を厳密に測定
長いコンテキストを直接読む方式と、要約して取り出すメモリーエージェント方式を同じ土俵で比較
どちらの方式も単独では不十分。特に「複数の過去情報を組み合わせる推論」と「分からないと正直に言う力」が弱いことが判明

#放課後論文ラジオ#AI#機械学習#視覚言語モデル#長期記憶#ベンチマーク#マルチモーダル#AIエージェント

論文を読み解く

Overview

ひと言でいうと

画像と文字が混ざった長い会話をAIがどこまで「覚えていられるか」を、画像が無いと絶対に解けない問題で厳密に測定する、初の本格的なベンチマークを構築した研究。

Background

背景

ChatGPTやGeminiのような視覚も理解できるAI（LVLM）をアシスタントとして使い続けると、会話履歴に画像や情報がどんどん積み上がっていきます。AIが過去の情報を正しく覚えていなければ、一貫したやりとりはできません。

この「長期記憶」の実現には大きく2つの流派があります。ひとつは 長いコンテキストを直接処理する 方式（GPT-5やGeminiなど）、もうひとつは 過去の情報を要約・索引化して必要な部分だけ取り出す 「メモリーエージェント」方式です。

ところが、この2つを公平に比較できるベンチマークがありませんでした。既存のテストは文字情報だけで答えが出てしまったり、画像が「飾り」になっていたりして、本当のマルチモーダル記憶力を測れていなかったのです。

Novelty

何が新しいか

研究チームが作った MEMLENS の核心は、「画像を見ないと絶対に解けない」789個の問題を作り込んだ点です。

例えば「先週土曜、ゴールデンゲートブリッジでエマと何時に会った？」という質問。会話履歴には「あの橋（画像あり）で会った」としか書かれておらず、画像を見て初めて「あの橋＝ゴールデンゲートブリッジ」と分かる仕掛けです。これを エンティティ抽象化 と呼んでいます。

問題は5つの記憶能力に分かれています：

情報抽出（特定の事実を思い出す）
複数セッション推論（複数の会話から情報を合成）
時間推論（時系列や期間の比較）
知識更新（好みの変化を追う）
回答拒否（情報がないときに「分からない」と言える）

さらに会話の長さを32K〜256Kトークンまで4段階に標準化し、長いコンテキスト型LVLM（27種類）とメモリーエージェント（7種類）を同じ土俵で比較しました。

Results

どんな結果が出たか

検証で 画像を取り除くと正答率が2%未満に崩壊 することが確認され、ベンチマークが本当に画像必須であることが裏付けられました。

主要な発見は3つ：

長コンテキスト型LVLM は短い会話（32K）では最高 58.7% と健闘するものの、会話が長くなると性能が大きく低下。特にハルシネーション抑制（回答拒否）が崩壊しやすい。
メモリーエージェント は会話長による劣化は少ないが、画像情報を文字要約に圧縮する過程で視覚的細部が失われ、情報抽出系で大きく見劣りする。
複数セッション推論 はほぼ全モデルが 30% 未満で頭打ち。最強モデルでも本タスクは未解決。

つまり、どちらの方式も単独では長期記憶問題を解けていません。

Key Point

なぜ重要か

業務でAIアシスタントを長期間使う場面を想像してください。営業担当者が顧客との半年分のやりとり（写真や資料を含む）から「あの案件、結局いくらだったっけ？」と聞く。あるいは医療現場で「前回見せた検査画像と比べてどう？」と尋ねる。こうした 画像を含む長期記憶 は、AI実用化の本丸です。

この研究が示したのは、現状の最先端AIでも「画像を含む長い対話の記憶」は半分程度しか正しく扱えないという現実。特に 複数の過去情報を組み合わせて推論する タスクや 情報がないときに正直に「分からない」と言う 能力は致命的に弱い。

論文は「長コンテキスト処理」と「構造化された検索」を組み合わせたハイブリッド型が次の方向性だと示唆しています。AIエージェントを業務に組み込むなら、単純なコンテキスト拡大やRAGだけでは不十分で、画像レベルの証拠を保持する新しい記憶アーキテクチャが必要——これは導入検討中の企業が押さえておくべき重要な示唆です。

From the Host

解説者ノート

個人的に面白かったのは「メモリーエージェントを記憶用に追加学習させると、逆に『分からない』と言えなくなる」という発見。記憶を引き出すことだけを報酬にすると、データがなくても何か答えようとする副作用が出る——人間の社員教育にも通じる話で、評価指標の設計がいかに大切かを示しています。一方で、複数セッション推論が軒並み30%以下というのは厳しい現実で、ここを突破するアーキテクチャが今後の競争領域になりそうです。

キーワード

LVLM（大規模視覚言語モデル）

画像と文字の両方を理解できるAI。GPT-5やGeminiが代表例

メモリーエージェント

過去のやりとりを要約してデータベースに保存し、必要なときだけ取り出すAIの仕組み

長コンテキスト

AIが一度に読み込める情報量。256Kトークンなら本一冊分くらい

エンティティ抽象化

「ゴールデンゲートブリッジ」を「あの橋（画像）」と置き換える手法。画像を見ないと正解できなくする工夫

ハルシネーション

AIが情報がないのに、もっともらしく答えをでっち上げてしまう現象

回答拒否（Abstention）

「分からない」と正直に答える能力。誤情報を防ぐ要

論文情報

2605 14906

arXivで読む alphaXivで読む

トランスクリプト

かなで

はじまりました、放課後論文ラジオです。

ゆい

ゆいです！

かなで

かなでです。

ゆい

この番組は、AIとか機械学習の論文を、2人でかみ砕いてゆるっとお届けしてるよ！

かなで

今日もよろしくね。

ゆい

ねえねえ、かなで先輩、聞いてよ。