Back to list
MemPot:セクショナル確率比率検証を介したメモリの保護に向けたハーネス化フレームワーク
MemPot: Defending Against Memory Extraction Attack with Optimized Honeypots
Translated: 2026/3/7 12:37:00
Japanese Translation
大規模言語モデル (LLM) エージ ents が複雑な目標指向のタスクを処理するには、外部と内部のメモリシステムを使用し、しかしこれがセクショナル・確率比率検証攻撃に容易にさらされることから、そのセキュリティに対する効果的な防御手段は存在しません。 この論文では、セクショナル・確率比率検証攻撃を防ぐための論理的に確かめた防衛フレームワークである MemPot を提案しています。 2 阶段の最適化プロセスを通じて生成されたトライプディングドキュメントは attackers のリテンション率を最大化する一方で、 benign usersからの存在感を無視します 。我々は検出過程をワルドの順序確率比検証 (SPRT)としてモデル化し、論理的に Prove MemPotが optimal static detectorsと比べて平均的なサンプリング回数を引き下げることができます。 出典:mempot 抵抗フレームワークに対する性能を著しく改善する高い AUROC AUROC の増加率は低偽陽性レートの制限を持つ状態の最良の基準よりも 80%以上に、True Positive Rateは50%以上の高さになります。さらに、我々の実験が確認することにより、mempotインフェーザーなしにおいてオンラインのインフェクショナル遅延と アジェンダの標準的なタスクで利用価値を維持することができることが示されました。 安全性を評価し、危害性を低減および効率性に基づいて MemPot の優れた品質を確認する。
Original Content
arXiv:2602.07517v1 Announce Type: cross
Abstract: Large Language Model (LLM)-based agents employ external and internal memory systems to handle complex, goal-oriented tasks, yet this exposes them to severe extraction attacks, and effective defenses remain lacking. In this paper, we propose MemPot, the first theoretically verified defense framework against memory extraction attacks by injecting optimized honeypots into the memory. Through a two-stage optimization process, MemPot generates trap documents that maximize the retrieval probability for attackers while remaining inconspicuous to benign users. We model the detection process as Wald's Sequential Probability Ratio Test (SPRT) and theoretically prove that MemPot achieves a lower average number of sampling rounds compared to optimal static detectors. Empirically, MemPot significantly outperforms state-of-the-art baselines, achieving a 50% improvement in detection AUROC and an 80% increase in True Positive Rate under low False Positive Rate constraints. Furthermore, our experiments confirm that MemPot incurs zero additional online inference latency and preserves the agent's utility on standard tasks, verifying its superiority in safety, harmlessness, and efficiency.