Back to list
RAG における適応型防御の編成: 多ベクター攻撃に対する哨兵戦略家アーキテクチャ
Adaptive Defense Orchestration for RAG: A Sentinel-Strategist Architecture against Multi-Vector Attacks
Translated: 2026/4/24 20:21:47
Japanese Translation
arXiv:2604.20932v1 発表タイプ:横断
要約: 検索拡張生成(RAG)システムは、医療や法廷などの敏感なドメインで、専用ドメイン知識に依存して展開されつつあります。この機能は、所属推論、データポイソニング、意図しないコンテンツ漏洩を含む重大なセキュリティリスクをもたらします。直感的な緩和策は、全ての関連防御を同時に有効にするところですが、これには多大なユーティリティコストがかかります。我々の実験では、常時オン状態の防御スタックは文脈的想起率を 40% 以上低下させ、これが主要な故障モードであることを示唆しています。RAG システムにおけるこのトレードオフを緩和するため、我々は文脈感知型のリスク分析と防御選択のための「哨兵戦略家(Sentinel-Strategist)」アーキテクチャを提案します。哨兵は異常な検索行動を検出し、その後、戦略家はクエリの文脈に応じたみだけの防御を選択的に展開します。3 つのベンチマークデータセットと 5 つのオーケストレーションモデルを対象とした評価では、AD O は MBA 様の所属推論漏洩を排除するとともに、静的な完全防御スタックに比べて実用上の想起率を大幅に回復させ、防御なしの基準値に近づきました。データポイソニング下では、強力な ADO バリアントは攻撃成功率をほぼゼロに低減し、文脈的想起率を防御なしの基準値の 75% 以上に回復させましたが、頑健さはモデル選択に敏感でした。全体的に、これらの結果は、適応型およびクエリ認識型の防御が、RAG システムにおけるセキュリティとユーティリティのトレードオフを大幅に削減できることを示しています。
Original Content
arXiv:2604.20932v1 Announce Type: cross
Abstract: Retrieval-augmented generation (RAG) systems are increasingly deployed in sensitive domains such as healthcare and law, where they rely on private, domain-specific knowledge. This capability introduces significant security risks, including membership inference, data poisoning, and unintended content leakage. A straightforward mitigation is to enable all relevant defenses simultaneously, but doing so incurs a substantial utility cost. In our experiments, an always-on defense stack reduces contextual recall by more than 40%, indicating that retrieval degradation is the primary failure mode. To mitigate this trade-off in RAG systems, we propose the Sentinel-Strategist architecture, a context-aware framework for risk analysis and defense selection. A Sentinel detects anomalous retrieval behavior, after which a Strategist selectively deploys only the defenses warranted by the query context. Evaluated across three benchmark datasets and five orchestration models, ADO is shown to eliminate MBA-style membership inference leakage while substantially recovering retrieval utility relative to a fully static defense stack, approaching undefended baseline levels. Under data poisoning, the strongest ADO variants reduce attack success to near zero while restoring contextual recall to more than 75% of the undefended baseline, although robustness remains sensitive to model choice. Overall, these findings show that adaptive, query-aware defense can substantially reduce the security-utility trade-off in RAG systems.