
#43 AIは人の性格を「なんとなく」で当てている
マルチモーダルAIの正解の51%は根拠なしと判明
2026年5月23日
番組ノート
今回の論文
- タイトル: Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?
- 著者: Caixin Kang et al.(東京大学、Shanda AI Research Tokyo、大連理工大学)
- 発表: 2026年5月(arXiv プレプリント)
このエピソードのポイント
- 最新のマルチモーダルAI27種類を調べたら、正解スコアの51%が「根拠なし」のまぐれ当たりだった
- スコアと推論と行動の手がかり、3つすべて正解できたのは平均でわずか10.4%
- EU AI法の時代、AIを選ぶ基準は「精度」から「根拠の説明力」へシフトする
論文を読み解く
Overview
ひと言でいうと
マルチモーダルAI(画像・音声・テキストを扱える大規模モデル)が、人の性格を「正しく」判定しているように見えても、実は根拠なく当てているだけなのか、それとも本当に観察された行動から推論しているのかを暴く評価基準を作った研究。
Background
背景
AIはすでに採用面接のスクリーニング、メンタルヘルスの一次診断、ゲーム内NPCの性格適応など、「人を見て性格を判断する」場面に投入されつつあります。しかし、これまでの評価方法は「ビッグファイブ(外向性・協調性・誠実性・神経症傾向・開放性)の数値スコアを当てられるか」だけを見ていました。
これだと、「笑顔→協調性が高い」のような表面的な相関で偶然当てているモデルと、本当に行動を観察して判断しているモデルを区別できません。さらに EU AI法では、性格に基づく採用判定は「高リスク」と分類され、根拠の説明が必須化されつつあります。「正しい答え」だけでなく「正しい理由」が問われる時代になったのです。
Novelty
何が新しいか
著者らは「根拠ある性格推論(Grounded Personality Reasoning, GPR)」という新タスクを提案しました。AIに対して、(1) スコアを出す、(2) 理由を説明する、(3) その根拠となった具体的な観察手がかりを答える、という3段階を要求するものです。
そのために MM-OCEAN というベンチマーク(1,104本の動画と5,320問の選択式問題)を作成。注目すべきは作り方で、4種類のAIエージェント(観察者=行動を細かく記録、心理学者=性格を分析、試験官=問題を作成、整合性チェッカー=品質保証)と人間の専門家が協働するパイプラインを構築。動画の中の「眉が上がった瞬間」「11.6秒〜14.8秒の前傾姿勢」といった微細な行動を、タイムスタンプとバウンディングボックス付きで記録し、それを根拠に性格を判定させる仕組みです。
さらに4つの「失敗タイプ」も定義しました:偏見率(PR) =スコアは合ってるが根拠が間違っている、作話率(CR) =もっともらしいが論理が破綻、統合失敗率(IR) =根拠はわかるがスコアを外す、全方位的根拠把握率(HR) =全部正解。
Results
どんな結果が出たか
27種類の最新マルチモーダルAI(プロプライエタリ13、オープンソース14)を評価したところ、衝撃的な 「偏見ギャップ」 が明らかに。正解スコアの 51% が根拠なし、つまり半分以上は「正しい答えを間違った理由で出している」状態でした。
全タスク完璧クリア率(HR)は最高でもGemini 3 Flashの 33.5% 、平均はわずか 10.4% 。LLaVA-NeXTやInternVL3-8Bに至ってはHRが 0% 。最先端のプロプライエタリモデルですら、約15%の正解は根拠を示せていません。
また、スコア予測やテキストでの説明はオープンソースもプロプライエタリにほぼ追いついている(差は3〜6%)一方、「行動の手がかりを実際に拾う能力」では26.6%もの差があることが判明しました。
Key Point
なぜ重要か
これは「AI採用面接」「AIメンタルチェック」を導入しようとしている企業にとって、見過ごせない警告です。従来の評価方法で「人材適性判定の精度80%」と謳われていたAIも、実は半分は根拠のないラッキーパンチだった可能性があります。これは法的リスク(EU AI法は説明可能な根拠の提示を義務化)に直結します。
また、Gemini 3 FlashやGPT-5.5など「思考プロセスを明示できるモデル」が上位を独占したことから、ビジネスでAIを選ぶ際は「答えの精度」だけでなく「根拠の説明力」を見るべき時代に入ったといえます。本研究は、「賢く見えるAI」と「信頼できるAI」の見分け方を提示したともいえ、AIガバナンス、ベンダー選定、社内AI評価基準のあり方に直接的な示唆を与えます。「自信満々の早とちり屋」タイプと「慎重だがスコアは外すかも」タイプという2つの失敗パターンも特定されており、用途に応じた使い分けの参考になります。
From the Host
解説者ノート
個人的に面白かったのは、「正解率は高いが根拠を聞くとボロが出る」という現象を定量化したこと。人間でも面接で「なんとなく良さそう」と判断することがありますが、AIも同じ罠にハマっていた、しかもそれが業界全体に蔓延しているという指摘は痛快です。一方で、性格判定の「正解」をクラウドソーシングで決めたデータセットを使っている点は、文化的バイアスの観点で限界もあります。それでも、「精度ではなく根拠で評価する」という発想は、AIガバナンス全般に応用できる重要な視点だと感じました。
キーワード
ビッグファイブ(OCEAN)
心理学で最も実証されている性格分類。外向性・協調性・誠実性・神経症傾向・開放性の5次元で人の性格を表す
マルチモーダル大規模言語モデル(MLLM)
文字だけでなく、画像・音声・動画も同時に理解できるAI。GPT-4o、Gemini、Claudeなど
根拠ある性格推論(GPR)
性格を判定する際に、「動画のどの瞬間のどの行動」を根拠にしたかまで示すことを求める新タスク
偏見率(Prejudice Rate)
スコアは合っているのに、その根拠となる行動を特定できなかった割合。高いほど「まぐれ当たり」が多い
全方位的根拠把握率(HR)
スコア・推論・根拠の3つすべてを正しく答えた割合。本当の理解度を測る
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい