放課後論文ラジオ
放課後論文ラジオ
EP.014

#14 たった2ビットでAIの脳を破壊する攻撃

符号ビット反転だけでLLMの正解率が78%から0%へ

2026年4月20日

番組ノート

今回の論文

  • タイトル: Maximal Brain Damage Without Data or Optimization: Disrupting Neural Networks via Sign-Bit Flips
  • 著者: Ido Galil, Moshe Kimhi, Ran El-Yaniv (NVIDIA / Technion / IBM Research)
  • 発表: arXiv 2025年(2502.07408)

このエピソードのポイント

  • 数十億あるAIの重みのうち、たった1〜2ビットを反転させるだけでモデルが壊滅的に機能不全になる
  • 攻撃者は訓練データも、モデルを動かすことすら必要ない。驚くほど軽量な手法
  • LLMの数学正解率が78%から0%に。自動運転や医療AIのセキュリティに直結する話
#放課後論文ラジオ#AI#機械学習#AIセキュリティ#LLM#ビット反転攻撃#Rowhammer

論文を読み解く

Overview

ひと言でいうと

ディープラーニングモデルの数十億個あるパラメータのうち、たった1〜2ビットの符号を反転させるだけで、画像認識から大規模言語モデル(LLM)まで壊滅的に機能不全に陥らせられることを示した研究。しかも攻撃者は訓練データも推論実行も必要としない。

Background

背景

AIモデルは自動運転、医療診断、金融など、ミスが許されない領域に広がっています。これに対する攻撃研究はこれまで主に「入力を細工する」タイプ(標識にステッカーを貼るなど)が中心でした。一方で「モデルの重みを直接書き換える」タイプの攻撃も研究されてきましたが、従来手法は 訓練データへのアクセスモデルを何度も実行しての最適化計算 が必要で、現実的な脅威としては限定的でした。

本研究が投げかける問いはシンプルです。「もし攻撃者がストレージ上のモデルファイルに書き込みできるとき、最低どれくらいの手数で壊せるのか?」。答えは、想像以上に少なくて済む、というものでした。

Novelty

何が新しいか

著者らの手法「Deep Neural Lesion(DNL、深層ニューラル損傷)」は、驚くほどシンプルです。

現代のAIは、パラメータを32ビットの浮動小数点数で保存しており、その先頭1ビットが 符号ビット​(プラスかマイナスかを決める)です。ここを反転させれば、重みが瞬時に正反対の値になります。

DNLの戦略は3つのルールに集約されます。

  1. 絶対値の大きい重みを狙う:刈り込み(プルーニング)研究の知見の逆を突き、最も影響力のある大きな重みを狙う
  2. ネットワークの入口に近い層を狙う:初期層の畳み込みフィルタ(例:エッジ検出器)は、後続の全層に影響が伝播する。視覚で言えば「網膜を壊すと全視野が失われる」のと同じ発想
  3. CNNでは1カーネルにつき1ビットまで:同じフィルタ内で2回反転させると、2つの誤差が打ち消し合って攻撃が弱まるため

さらに強力な「1P-DNL」版では、ランダムな入力でたった1回だけ順伝播・逆伝播して勾配情報を得ることで、より正確に「急所」を特定します。いずれも 訓練データ不要、反復最適化不要 という画期的な軽量性を実現しています。

Results

どんな結果が出たか

結果は衝撃的です。

  • 画像認識:ImageNetで学習したResNet-50の精度を、たった 2ビット 反転で 99.8% 低下
  • 物体検出:Mask R-CNNのバックボーンに 1ビット 反転するだけで、COCOのmAP(平均精度)がほぼゼロに
  • 推論LLM:Qwen3-30B-A3B-Thinking(Mixture-of-Experts型の300億パラメータモデル)で、​2ビット 反転するだけで数学問題の正解率が78%から0%に崩壊。出力は「I am a student. I am a student...」のような意味不明な繰り返しに
  • 48種類のImageNet学習済みモデルで評価したところ、​10ビット以内の反転で43モデルが60%以上の精度低下

一方、ランダムに10万ビット反転させても精度はほぼ下がらず、「急所」が極めて局在していることが分かります。

Key Point

なぜ重要か

この研究が示すのは、​AIシステムのセキュリティリスクが、従来考えられていたより桁違いに低コストで実現しうる という事実です。

想定される攻撃経路は、モデルファイルへの書き込みアクセスを取る経路すべてです。ルートキット、ファームウェアの脆弱性、DMA攻撃(Thunderboltなど外部機器経由)、そして有名な Rowhammer攻撃​(メモリの隣接セルを高速アクセスしてビットを物理的に反転させる手法)などが挙げられています。従来の攻撃手法は「モデルを何度も実行して勾配を計算する」必要があったため、実行中に検知されるリスクがありました。DNLは事前にオフラインで攻撃対象を特定できるため、​圧倒的にステルス性が高い のです。

ビジネス的な含意は深刻です。自動運転車、医療AI、金融AIといったクリティカルな用途で、モデルファイルの改ざん検知が従来以上に重要になります。防御策として著者らは、「最も危険な上位0.001%〜1%の重みだけ」を誤り訂正符号(ECC)や多重化で保護すれば、攻撃コストを大幅に引き上げられることも示しています。全体を守る必要はなく、​急所だけ守れば実用的な防御になる という示唆は、運用面で非常に現実的です。

From the Host

解説者ノート

個人的に最も面白かったのは、「プルーニングで残すべきと判断される重みこそが、攻撃されると最も致命的」という逆説です。モデルを軽量化する研究と、モデルを破壊する研究が、同じ「重要な重みの特定」という問題を共有しているのは示唆的です。気になるのは、実際にRowhammer等で 狙った特定の重みのビット を反転できるかは攻撃環境に強く依存する点で、現実の攻撃成功率は論文の数字ほど簡単ではないはずです。ただし「脅威モデルが現実味を帯びてきた」こと自体が重要で、今後MLOpsの一部としてモデルファイルの完全性検証が標準化されていく流れを加速させそうです。

キーワード

符号ビット(Sign bit)

32ビット浮動小数点数の先頭1ビット。プラスかマイナスかを決める。ここを反転させると重みの値が正負逆転する

ビット反転攻撃(Bit-flip attack)

メモリ上のデータをビット単位で書き換える攻撃。物理的な電気干渉(Rowhammer)やソフトウェア侵入で実現しうる

Mixture-of-Experts(MoE)

入力ごとに一部の「専門家ネットワーク」だけを使う大規模モデルの設計。Qwen3-30B-A3Bなど

Rowhammer

DRAMメモリの隣り合う行に高速アクセスを繰り返すと、電気的干渉で隣のビットが勝手に反転する現象を悪用した攻撃

プルーニング

ニューラルネットワークから重要でない重みを削除して軽量化する技術。本研究は「重要な重みの特定」というプルーニングの知見を逆手に取っている

誤り訂正符号(ECC)

データに冗長情報を付加してビット反転を自動検出・修正する技術。防御策として提案されている

論文情報

2502 07408

トランスクリプト

K

かなで

はじまりました、放課後論文ラジオです。
Y

ゆい

ゆいです!
K

かなで

かなでです。
Y

ゆい

この番組は、最新のAI研究を2人で読み解きながらお届けしてるよ!
K

かなで

今日もよろしくね。
Y

ゆい

ねえねえ、聞いてよかなで先輩。昨日さ、スマホのロック画面の壁紙、ちょっとだけ変えたの。

EP.014|#14 たった2ビットでAIの脳を破壊する攻撃