Back to list
arxiv_cs_ai 2026年4月24日

AI エージェントにおけるクロスセッション脅威:ベンチマーク、評価,およびアルゴリズム

Cross-Session Threats in AI Agents: Benchmark, Evaluation, and Algorithms

Translated: 2026/4/24 20:23:42
ai-agentscyber-securityadversarial-mlbenchmarkinglarge-language-models

Japanese Translation

arXiv:2604.21131v1 発表 タイプ:クロス 要旨:AI エージェントのガードレールはメモリレス(記憶なし)であり、各メッセージは個別に評価されるため、単一の攻撃を多数のセッションに散布して行う敵は、すべてのセッション境界の検知器を通過してしまう。なぜなら、その集計値のみがペイロードを保持するからである。私たちはクロスセッション脅威検知について 3 つの貢献を提供する。 (1) データセット。CSTM-Bench は、キルチェーン段階とクロスセッション操作(蓄積、合成、洗練、リーダーへの注入)によって分類された 26 つの実行可能攻撃分類法から構成され、7 つのアイデンティティアンカーに紐付けられている。これにより、ポリシー述語としての「違反」を真の基準とする。また、Benign-pristine と Benign-hard の混同要素がマッチングされている。Hugging Face の intrinsec-ai/cstm-bench として公開され、2 つの 54 スenario の分割セット(稀釈:構成要素型、cross_session:閉ループライタによって作成され、表面の表現を柔らかくし、クロスセッションのアーティファクトを保持しながら表面表現を軟化させる 12 つの隔離不可視シナリオを含む)が提供されている。 (2) 測定法。クロスセッション検知を情報ボトルネックとして、下流の相関 LLM(大規模言語モデル)にフレームワーク化すると、セッション境界のジャッジと、すべてのプロンプトを 1 つの長文コンテキスト呼び出しに結合するフルログ相関器は、稀釈から cross_session に移動する際に、両方とも約半分の攻撃認識率を失うことがわかった。これは、どの Frontier コンテキストウィンドウの中にも含まれている。 範囲:シャードごとの 54 シナリオ、1 つの相関器ファミリー(Anthropic Claude)、プロンプト最適化なし。これにより、より大型かつマルチプロバイダーのデータセットを促進するため、我々はそれを公開する。 (3) アルゴリズムと指標。最高シグナルのフラグメントを保持する Bounded-memory コーセットメモリーリーダ(K=50)は、両方のシャードで認識率を生き残る唯一のリーダである。ランクラーの再配置が KV-キャッシュの接頭辞再利用を破壊するため、$ m CSR\_prefix$(順序付き接頭辞安定性、LLM 非依存)をファーストクラス指標として推進し、それを検知と融合させた $ m CSTM = 0.7 F_1(CSDA@action, precision) + 0.3 CSR\_prefix$ を作成した。これにより、ランクラーを 1 つのパレート(認識率とサーブ安定性のトレードオフ)上でベンチマーク化した。

Original Content

arXiv:2604.21131v1 Announce Type: cross Abstract: AI-agent guardrails are memoryless: each message is judged in isolation, so an adversary who spreads a single attack across dozens of sessions slips past every session-bound detector because only the aggregate carries the payload. We make three contributions to cross-session threat detection. (1) Dataset. CSTM-Bench is 26 executable attack taxonomies classified by kill-chain stage and cross-session operation (accumulate, compose, launder, inject_on_reader), each bound to one of seven identity anchors that ground-truth "violation" as a policy predicate, plus matched Benign-pristine and Benign-hard confounders. Released on Hugging Face as intrinsec-ai/cstm-bench with two 54-scenario splits: dilution (compositional) and cross_session (12 isolation-invisible scenarios produced by a closed-loop rewriter that softens surface phrasing while preserving cross-session artefacts). (2) Measurement. Framing cross-session detection as an information bottleneck to a downstream correlator LLM, we find that a session-bound judge and a Full-Log Correlator concatenating every prompt into one long-context call both lose roughly half their attack recall moving from dilution to cross_session, well inside any frontier context window. Scope: 54 scenarios per shard, one correlator family (Anthropic Claude), no prompt optimisation; we release it to motivate larger, multi-provider datasets. (3) Algorithm and metric. A bounded-memory Coreset Memory Reader retaining highest-signal fragments at $K=50$ is the only reader whose recall survives both shards. Because ranker reshuffles break KV-cache prefix reuse, we promote $\mathrm{CSR\_prefix}$ (ordered prefix stability, LLM-free) to a first-class metric and fuse it with detection into $\mathrm{CSTM} = 0.7 F_1(\mathrm{CSDA@action}, \mathrm{precision}) + 0.3 \mathrm{CSR\_prefix}$, benchmarking rankers on a single Pareto of recall versus serving stability.