Back to list
arxiv_cs_ai 2026年4月24日

Long-Context LLM エージェントにおいて、漏れ制約は減衰する一方、委細制約は維持される:セキュリティ・リコール分岐 (SRD)

Omission Constraints Decay While Commission Constraints Persist in Long-Context LLM Agents

Translated: 2026/4/24 20:21:23
llm-agentslong-contextsecurity-policycausal-studytoken-padding

Japanese Translation

arXiv:2604.20911v1 Announce Type: cross 摘要:本格的運用に配備された LLM エージェントは、オペレーターが定義した行動ポリシー(認証情報の開示、データ流出、および未承認出力に関する禁止命令などのシステムプロンプト指示)に基づいて動作し、安全性評価はこれらの制約が対話全体を通じて維持されていると仮定している。コンテキストの圧力に晒されると禁止タイプ(prohibition-type)の制約は減衰する一方、要件タイプ(requirement-type)の制約は維持され、これを「セキュリティ・リコール分岐 (Security-Recall Divergence, SRD)」と命名する。4,416 回試行の 3 重アーム因果研究において、12 モデルおよび 8 プロバイダ、6 段階の対話深さを横断し、欠損遵守率はターン 5 で 73% からターン 16 で 33% へと低下する一方、委細遵守率は 100% 維持された(Mistral Large 3, $p < 10^{-33}$)。トークンマッチによるパディング制御が実装された 2 モデルにおいて、スキーマの構文内容が 62-100% の稀釈効果に寄与することが示された。モデルごとの安全ターン深さ(Safe Turn Depth, STD)前に制約を再注入するだけで、再訓練を伴わずに遵守率が回復する。本格的運用のセキュリティポリシーは、認証情報を決して開示しない、信頼性の低いコードを決して実行しない、ユーザーデータを決して転送しないなどの禁止命令で構成されている。委細タイプの監査シグナルは健全ままだが、漏れ制約は既に失敗しており、これは標準的な監視システムにおいて不気味に目立たない状態を招く。

Original Content

arXiv:2604.20911v1 Announce Type: cross Abstract: LLM agents deployed in production operate under operator-defined behavioral policies (system-prompt instructions such as prohibitions on credential disclosure, data exfiltration, and unauthorized output) that safety evaluations assume hold throughout a conversation. Prohibition-type constraints decay under context pressure while requirement-type constraints persist; we term this asymmetry Security-Recall Divergence (SRD). In a 4,416-trial three-arm causal study across 12 models and 8 providers at six conversation depths, omission compliance falls from 73% at turn 5 to 33% at turn 16 while commission compliance holds at 100% (Mistral Large 3, $p < 10^{-33}$). In the two models with token-matched padding controls, schema semantic content accounts for 62-100% of the dilution effect. Re-injecting constraints before the per-model Safe Turn Depth (STD) restores compliance without retraining. Production security policies consist of prohibitions such as never revealing credentials, never executing untrusted code, and never forwarding user data. Commission-type audit signals remain healthy while omission constraints have already failed, leaving the failure invisible to standard monitoring.