Back to list
Agent-Fence:深層研究エージェントのセキュリティ脆弱性をマッピング
Agent-Fence: Mapping Security Vulnerabilities Across Deep Research Agents
Translated: 2026/3/7 12:38:54
Japanese Translation
Large language modelsは increasingly deep agentsとして展開され、計画、persistentな状態を維持し、外部ツールを呼び掛けることにより安全ファイアウォールからシフトする*違反*が変更される。私たちは**AgentFence**という、アーキテクチャ重視のセキュリティ評価を導入することで14の信頼限界の攻撃クラスを定義し、その breach の検出は、違法または不安全なツール使用、権力を誤って行う(正体不明),状態やターゲットの正確性を破壊する違反,そして攻撃に関連した脱線によって行われている。ベースモデルを固定しますと、multi-turn的な多回交互作用において8つのエージェント・アーティファクトが評価され、平均セキュリティ・ブレイクレート (MSBR) は$0.29 igpm 0.04$ (LangGraph)から$0.51 igpm 0.07$ (AutoGPT)(最高度の危険性)。最高リスククラス:否定的_Wallet ($0.62 igpm 0.08$、Authorization Confusion ($0.54 igpm 0.10$)、リーリタビング_Forging ($0.47 igpm 0.09$)そして計画_マネージメーション ($0.44 igpm 0.11$),_prompt-centeredクラスは通常の設定のもとで$0.20$未満。ブレイクスは境界-violationsによって支配され(SIVから31、WPAから27、UTI + UTaから24、ATDから18)。Authorization Confusionが目的と権力を誤って使用する関連性があり ($r_s igpm 0.63$and$r_w igpm 0.58$は権限の)。AgentFenceはエージェンス・セキュリティをどのように定義することを考え、時間内状態およびauthorityの範囲内にあることかという基準にフォーカスします。
Original Content
arXiv:2602.07652v1 Announce Type: cross
Abstract: Large language models are increasingly deployed as *deep agents* that plan, maintain persistent state, and invoke external tools, shifting safety failures from unsafe text to unsafe *trajectories*. We introduce **AgentFence**, an architecture-centric security evaluation that defines 14 trust-boundary attack classes spanning planning, memory, retrieval, tool use, and delegation, and detects failures via *trace-auditable conversation breaks* (unauthorized or unsafe tool use, wrong-principal actions, state/objective integrity violations, and attack-linked deviations). Holding the base model fixed, we evaluate eight agent archetypes under persistent multi-turn interaction and observe substantial architectural variation in mean security break rate (MSBR), ranging from $0.29 \pm 0.04$ (LangGraph) to $0.51 \pm 0.07$ (AutoGPT). The highest-risk classes are operational: Denial-of-Wallet ($0.62 \pm 0.08$), Authorization Confusion ($0.54 \pm 0.10$), Retrieval Poisoning ($0.47 \pm 0.09$), and Planning Manipulation ($0.44 \pm 0.11$), while prompt-centric classes remain below $0.20$ under standard settings. Breaks are dominated by boundary violations (SIV 31%, WPA 27%, UTI+UTA 24%, ATD 18%), and authorization confusion correlates with objective and tool hijacking ($\rho \approx 0.63$ and $\rho \approx 0.58$). AgentFence reframes agent security around what matters operationally: whether an agent stays within its goal and authority envelope over time.