Back to list
arxiv_cs_ai 2026年2月10日

アгентスイ:直接のメモリ管理に基づいてセーフと動的なLLMアグentsを保護する

AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management

Translated: 2026/3/7 12:33:05

Japanese Translation

無関係なプロプストリンジェクションがLLMアグentsに脅威を及ぼし、外部コンテンツに悪意を持った指示を通じて不正行為とデータ強奪を可能にします。LMアグentsは相互作用歴などを保管するワーカープロンテンのコントロールウィンドウを維持して知識や行動を決めます。一般的なアグentsはすべてのツール出力や推論メモリの記憶を一気に蓄積し、その仕事には二つの重要な脆弱性が存在します:(1)インジェクトされた指示がワークフロー全体に留まるため、攻撃者は複数回操作行為を調整する機会を得られ、そして(2)重たいで無関係なテキストは決断力を低下させます。現在のフィジブには膨大的なメモリ自体が見逃されると考えられており、これを減らさずに守りつつ耐えられる状態となることのみが専門となりました。しかし、私たちはアーケンスイと名づけられたフレームワークを提示します。このセーフかつ動的なLLMアグentsにとって適応を伴う攻撃から防御するための直接的メモリ管理に基づき、これらの脆弱性は意識的に処理できます。OSへのプロセスメモリ隔離に着想を得たアーケンスイでは、主なアグENTSはツール呼び出しに対してサブオブジェクトの役割を持つワーカー・アグENTSを産出し、各々は単一のコンテキスト内で動作します。また、外部データとサブタスクを記憶させるためには主要なアグENTにメモリへのアクセスがなくなります。のみで定義された形だけがその境界を越えられ、これは決まられたJSON解析を通じて行います。消極的なテストでは、分離が成功の8.61%まで削減され、Validator/Sanitizerを追加するとこれに増し防護力があります。これを動作数でオーバーヘッドが増えることなく処理のスケーリングを起こします。

Original Content

arXiv:2602.07398v1 Announce Type: cross Abstract: Indirect prompt injection threatens LLM agents by embedding malicious instructions in external content, enabling unauthorized actions and data theft. LLM agents maintain working memory through their context window, which stores interaction history for decision-making. Conventional agents indiscriminately accumulate all tool outputs and reasoning traces in this memory, creating two critical vulnerabilities: (1) injected instructions persist throughout the workflow, granting attackers multiple opportunities to manipulate behavior, and (2) verbose, non-essential content degrades decision-making capabilities. Existing defenses treat bloated memory as given and focus on remaining resilient, rather than reducing unnecessary accumulation to prevent the attack. We present AgentSys, a framework that defends against indirect prompt injection through explicit memory management. Inspired by process memory isolation in operating systems, AgentSys organizes agents hierarchically: a main agent spawns worker agents for tool calls, each running in an isolated context and able to spawn nested workers for subtasks. External data and subtask traces never enter the main agent's memory; only schema-validated return values can cross boundaries through deterministic JSON parsing. Ablations show isolation alone cuts attack success to 2.19%, and adding a validator/sanitizer further improves defense with event-triggered checks whose overhead scales with operations rather than context length. On AgentDojo and ASB, AgentSys achieves 0.78% and 4.25% attack success while slightly improving benign utility over undefended baselines. It remains robust to adaptive attackers and across multiple foundation models, showing that explicit memory management enables secure, dynamic LLM agent architectures. Our code is available at: https://github.com/ruoyaow/agentsys-memory.