
#50 AIの電子透かしは平均するだけで消える
複数AIの出力を平均する「WASH」で透かしを洗い流す
2026年6月3日
番組ノート
今回の論文
- タイトル: Linear Ensembles Wash Away Watermarks: On the Fragility of Distributional Perturbations in LLMs
- 著者: Zhihao Wu, Gracia Gong et al.(King's College London ほか)
- 発表: ICML 2026
このエピソードのポイント
- AIが書いた文章に仕込む「電子透かし」は、複数のAIの出力を平均するだけで簡単に消せてしまう
- 各社がバラバラの秘密鍵を使うことが弱点で、わずか3つのモデルを混ぜるだけで検出されなくなった
- 透かしを消すと文章の品質まで上がってしまう。解決には業界全体での標準化・協調が必要
論文を読み解く
Overview
ひと言でいうと
AIが生成した文章に埋め込む「電子透かし」は、複数のAIモデルの出力を平均するだけで簡単に消せてしまうことを理論と実験で証明し、その仕組みを効率的に実現する手法「WASH」を提案した研究。
Background
背景
ChatGPTのようなAIが書いた文章が、人間の文章と見分けがつかなくなってきました。学校のレポートやニュース記事が本物か、AI製かを判別する必要性が高まっています。その解決策として期待されているのが「電子透かし(ウォーターマーク)」です。これはAIが文章を作るときに、人間には気づかれない統計的な「クセ」をこっそり仕込んでおき、後から検出する技術です。
ただし、これまでの研究には大きな前提がありました。「攻撃者は1つのAIモデルしか使えない」という想定です。しかし現実には、私たちはGPT、Llama、Qwenなど10種類以上のAIに自由にアクセスできます。この「AIが選び放題」という当たり前の現実こそが、透かし技術の弱点になるのではないか——それがこの研究の出発点です。
Novelty
何が新しいか
核心となるアイデアは驚くほどシンプルです。透かしとは、AIが「次にどの単語を出すか」という確率分布を、本来の姿から少しズラすことで埋め込まれます。重要なのは、各社が違う秘密鍵を使うため、このズラし方はバラバラ(独立) だという点です。
ということは、複数のAIに同じ質問をして、その出力確率を「平均」してやれば、バラバラなズレは打ち消し合って、元の透かしなしの分布が復元される——という理屈です。著者らはこれを数学的に証明し、モデル数Nを増やすほど誤差が 1/√N の速さで小さくなることを示しました。
ただし実装は簡単ではありません。AIごとに単語の区切り方(トークン化)が違うのです。たとえば「Gracious」をあるモデルは「Gr+acious」、別のモデルは「Gra+cious」と分けます。これでは確率の平均が取れません。そこで提案されたのが WASH です。単語の途中で区切り方が食い違ったら、その単語だけ対応できるモデルに任せて完成させる「流暢性を意識したルーティング」という仕組みで、この食い違いを解決しました。
Results
どんな結果が出たか
効果は劇的でした。透かしの強さを示す「z スコア」(4を超えると検出されたとみなす指標)は、透かし入り単体では 5〜300 という非常に高い値でしたが、わずか3つのモデルを平均しただけで 2 以下(ほぼランダムと区別がつかないレベル)まで落ちました。完成済みの文章を検査する方式でも、検出成功率を 50% 未満に抑え込んでいます。
さらに注目すべきは、透かしを消すと同時に 文章の品質が約27.5%向上 し、しかも既存の最良手法と比べて 約6倍速い という点です。透かしは元々文章の質を少し下げるため、それを取り除くことで本来の性能が戻るわけです。
興味深い対照実験もあります。もし全モデルが「同じ」透かしを協調して入れた場合、平均化は通用せず、z スコアは高いまま残りました。つまり、弱点の本質は「各社がバラバラに透かしを入れている」ことにあると裏付けられました。
Key Point
なぜ重要か
この研究は、「AI生成コンテンツの真贋判定」というビジネス課題に冷や水を浴びせる内容です。教育機関でのレポート不正検知、ニュースの真偽判定、著作権保護など、多くの分野が透かし技術に期待を寄せています。しかしこの論文は「複数のAIを使える環境では、透かしは原理的に消せてしまう」と示しました。
ビジネス的に重要なのは、これが「技術の未熟さ」ではなく「市場構造」に根ざした問題だという指摘です。AI業界は競争市場であり、各社が独自の秘密鍵を使う限り、透かしのズレは必ずバラバラになります。つまり、本当に頑健な検出を実現するには AI各社が業界横断で透かしの仕組みを標準化・協調する しかない、という結論になります。
これは、AI由来コンテンツの規制や認証ビジネスを考える人にとって示唆的です。「技術で何とかなる」のではなく、「企業間の協調や業界標準づくり」という、よりビジネス・政策寄りの解決が不可欠だと突きつけているからです。
From the Host
解説者ノート
個人的に面白いのは、「攻撃手法」を提案しているのに、結論が「だから業界で協力しよう」という建設的な提言に着地している点です。透かしの弱点が技術の問題ではなく市場構造の問題だと喝破したのは見事だと思います。特に「全モデルが協調すれば消せない」という対照実験は、解決の方向性まで示していて誠実です。一方で、各社が本当に秘密鍵を共有する協調ができるのか、競争上の利害をどう調整するのかは、技術論を超えた難題として残るとみられます。
キーワード
電子透かし(ウォーターマーク)
AIが文章を作るとき、人間には気づかれない統計的なクセを仕込み、後でAI製かどうか判別できるようにする技術
出力確率分布
AIが「次にどの単語を出すか」を決める際の、各単語の選ばれやすさを表す確率の一覧
線形アンサンブル
複数のAIモデルの出力確率を単純に平均すること。バラバラなクセを打ち消し合う効果がある
トークン化
文章を単語や記号などの小さな単位に区切る処理。AIごとに区切り方が異なる
z スコア
透かしがどれだけ強く検出されるかを示す指標。値が大きいほど「AI製」と判定されやすい
流暢性を意識したルーティング
単語の区切り方がモデル間で食い違ったとき、対応できるモデルだけに任せて文章の自然さを保つWASHの工夫
トランスクリプト
かなで
ゆい
かなで
ゆい
かなで
ゆい