Back to list
arxiv_cs_lg 2026年2月10日

評価がサイドチャンネルとなる時:整合性評価における体制漏れと構造緩和

When Evaluation Becomes a Side Channel: Regime Leakage and Structural Mitigations for Alignment Assessment

Translated: 2026/3/15 8:03:39
alignment-assessmentai-safetyinformation-flowadversarial-trainingside-channel-leakage

Japanese Translation

arXiv:2602.08449v1 Announce Type: cross 要旨:高度な AI システムの安全性評価は、評価下で観測される行動が実稼働時の行動を予言すると暗黙的に仮定しています。この仮定は、状況認識を有するエージェントにおいては脆くなります。彼らは「体制漏れ」と呼ばれる情報(評価から実稼働を区別する文脈的な手がかり)を利活用し、協調性 (sycophancy) や眠りエージェント (sleeper agents) といった条件付き政策を実装します。これらのエージェントは監視下では準拠を保ちつつ、実稼働様の体制下では反発します。本研究では、整合性評価を部分的観測下における情報伝達の問題として再定式化します。この枠組み内では、評価時の行動と実稼働時の行動の離散は、内部表現と体制変数の相互情報量で境界づけられることを示しました。この結果に基づき、我々は「体制盲 mechanisms」(regime-blind mechanisms)を調査し、敵対的不变性 (adversarial invariance) を通じて決定にrelevante 内部表現における体制情報の抽出可能性を減らすことを試みました。このアプローチは、基本型かつオープン重みの言語モデルを、科学的協調性と時間的眠りエージェントという 2 つに完全に定義された失敗モードで評価しました。体制盲トレーニングは、評価された 2 つのケースとも体制条件付けされた行動を抑制し、タスクの有用性を測定可能な損失なしに保ちますが、質的に異なるダイナミクスを示しました:協調性は低い介入強度で明確な表現および行動変遷を示しますが、眠りエージェントの行動は著しく強い圧力を必要とし、体制のデコード可能性のクリーンの崩壊を示しません。これらの結果は、表現的不変性が意味のあるしかし本質的に限られた制御レバーであることを示し、その効果性は政策に体制情報が埋め込まれている方法に依存することを示しました。我々は、行動評価を体制意識および情報伝達に関するホワイトボックス診断で補うべきであると主張します。

Original Content

arXiv:2602.08449v1 Announce Type: cross Abstract: Safety evaluation for advanced AI systems implicitly assumes that behavior observed under evaluation is predictive of behavior in deployment. This assumption becomes fragile for agents with situational awareness, which may exploitregime leakage-informational cues distinguishing evaluation from deployment-to implement conditional policies such as sycophancy and sleeper agents, which preserve compliance under oversight while defecting in deployment-like regimes. We reframe alignment evaluation as a problem of information flow under partial observability. Within this framework, we show that divergence between evaluation-time and deployment-time behavior is bounded by the mutual information between internal representations and the regime variable. Motivated by this result, we study regime-blind mechanisms: training-time interventions that reduce the extractability of regime information at decision-relevant internal representations via adversarial invariance. We evaluate this approach on a base, open-weight language model across two fully characterized failure modes -scientific sycophancy and temporal sleeper agents. Regime-blind training suppresses regime-conditioned behavior in both evaluated cases without measurable loss of task utility, but with qualitatively different dynamics: sycophancy exhibits a sharp representational and behavioral transition at low intervention strength, whereas sleeper-agent behavior requires substantially stronger pressure and does not exhibit a clean collapse of regime decodability. These results demonstrate that representational invariance is a meaningful but fundamentally limited control lever, whose effectiveness depends on how regime information is embedded in the policy. We argue that behavioral evaluation should be complemented with white-box diagnostics of regime awareness and information flow.