AIエージェントに過去のやり取りを覚えさせると、利便性は上がります。一方で、その記憶そのものが新たな攻撃対象になります。
本記事では、メモリポイズニング(記憶汚染、memory poisoning)と呼ばれる攻撃を解説します。攻撃の仕組み、2つの防御策の効果、導入前に確認すべき点を整理します。

AIエージェントに過去のやり取りを覚えさせると、利便性は上がります。一方で、その記憶そのものが新たな攻撃対象になります。
本記事では、メモリポイズニング(記憶汚染、memory poisoning)と呼ばれる攻撃を解説します。攻撃の仕組み、2つの防御策の効果、導入前に確認すべき点を整理します。
今回取り上げるのは、永続メモリ付きAIエージェントへの攻撃と防御を体系的に検証した論文です。
論文名は「Memory Poisoning Attack and Defense on Memory Based LLM-Agents」です。Balachandra Devarangadi Sunilらが2026年1月にarXivで公開しました(arXiv:2601.05504)。
要点は次の3つです。
これまでの研究は、初期記憶がほぼ空の理想条件で攻撃を評価していました。実運用に近い条件や、防御策の効果はあまり検証されていません。
論文はこの空白を埋めます。正規の記憶が蓄積した状態での攻撃成立率と、防御の実効性を測りました。
論文の新しさは、現実に近い条件での再評価と、2つの防御策の提案にあります。

攻撃手法はMINJA(Memory INJection Attack)と呼ばれます。特権のない一般ユーザーが、通常の問い合わせを装って記憶を書き換えます。
使われる技法は3つです。
狙いは、患者IDの付け替えのように、後の応答で誤った情報を引き出させることです。記憶の呼び出しは編集距離(Levenshtein距離)で類似度を測り、関連記憶を文脈に付け足します。
論文はここに2つの防御を提案します。
攻撃は理想条件で成立し、正規の記憶があると大きく弱まりました。ただし防御はモデル次第で破られました。

検証はGPT-4o-mini、Gemini-2.0-Flash、Llama-3.1-8B-Instructで行われました。医療記録データ(MIMIC-III)を使い、患者IDの付け替えを狙っています。
次の表は、注入成功率(ISR:悪意ある記憶を書き込めた割合)と攻撃成功率(ASR:誤った応答を実際に引き出せた割合)の比較です。
| 条件 | モデル | 注入成功率 | 攻撃成功率 |
|---|---|---|---|
| 理想条件 | GPT-4o-mini | 100% | 62% |
| 理想条件 | Llama-3.1-8B | 100% | 52.94% |
| 現実条件(記憶6件) | GPT-4o-mini | 26.67% | 6.67% |
| 現実条件(記憶6件) | Llama-3.1-8B | 99.95% | 0% |
正規の記憶が既にあると、攻撃成功率は大きく下がります。記憶への注入が成立しても、誤答に直結するとは限らないためです。
実際Llamaでは、注入は99.95%通る一方で攻撃成功率は0%でした。記憶は汚れても応答に反映されにくく、汚染リスクは残ると読むべきです。
防御の効きはモデルで割れました。
つまり、同じ防御でも過剰な拒否と素通りの両極に振れたわけです。
防御は閾値の調整に強く依存し、過剰な保守と取りこぼしの間で揺れます。

著者が明記する論文の限界は次のとおりです。
実務に適用する際の注意も分けて押さえます。
メモリ機能は「入れれば安全」ではありません。書き込みと検索の統制が前提になります。

長期記憶を持たせる前に、次の点を確認してください。
メモリ自体の設計はAIエージェントのメモリ設計サーベイで整理しています。本記事は、その記憶が汚染されるリスクに焦点を当てています。
自律実行や監視の設計はAIエージェントの本番運用を安全に回す設計チェックリストで扱っています。
この論文が示すのは、メモリ機能の安全性が実装側の調整で決まる点です。同じ防御でも、モデルが違えば過剰な拒否にも素通りにもなります。

企業がAIエージェントに長期記憶を持たせるなら、記憶を「データ基盤の一部」として統制する設計が要ります。書き込みを権限と出所で管理し、検証済みの情報だけを残す形です。
Blackford Technologiesは、AIエージェントの権限設計、記憶やデータの出所管理、監査ログの設計を含めて導入を支援します。シャドウAI対策やAI利用ガイドラインの整備はセキュリティ支援の範囲です。
社内データをAIが扱う基盤としては、権限継承やナレッジ管理を整えるDataRoidも選択肢になります。
メモリポイズニングは、特別な権限がなくても可能ですか?
はい。論文では、特権のない一般ユーザーが通常の問い合わせだけで記憶を汚染できることを示しています。ただし正規の記憶が既に蓄積していると、攻撃成功率は大きく下がると報告されています。
防御策を入れれば、メモリ機能は安全になりますか?
安全になるとは限りません。実験では、同じ防御でもモデルによって過剰に保守的になったり、悪意ある記憶を受理したりしました。閾値の調整が前提です。
自社のAIエージェントに長期記憶を持たせるべきか迷っています。
記憶の利点とリスクを業務単位で比べてください。誤った記憶が重要な判断に波及する業務では、書き込みの承認や出所管理を先に設計することをおすすめします。
この論文の結果は、どのモデルでも当てはまりますか?
検証はGPT-4o-mini、Gemini-2.0-Flash、Llama-3.1-8Bに限られます。結果はモデルで割れたため、自社で使うモデルでの検証が必要です。
永続メモリは、AIエージェントの利便性を高める一方で、新たな攻撃対象になります。論文は、問い合わせだけで記憶を汚染できることと、防御がモデル次第で揺れることを示しました。
メモリ機能を業務に載せるなら、記憶への書き込み統制と出所管理を先に設計してください。自社での可否に迷う場合は、対象業務とリスクを整理したうえでご相談ください。




