Back to list
arxiv_cs_ai 2026年2月10日

インセンティブを考慮したAI安全性:Stackelberg安全保障ゲームのセキュリティ資源配分 viewpoint に基づく

Incentive-Aware AI Safety via Strategic Resource Allocation: A Stackelberg Security Games Perspective

Translated: 2026/3/7 8:19:43

Japanese Translation

AIシステムが増年技術的かつ自立性が高いに至るにつれ、その安全保障と信頼性はモデルレベルの合致だけでなく、発展と展開に関与する人間およびインスタニケーションの制御も包括的に確保されている必要があります。現在の安全性フレームワークは、多くの場合で対象を静的最適問題として扱うことが多い(たとえば、モデルを予想される行動に調整する)ために、状況不明の攻撃的なインセンティブに動的作品がデータの収集、評価モデルがどのように評価され評価されそして彼らが最終的にどのように開発および展開されているかに関与していません。我々はAI監視を制剣戦の間でディフェンダー(監査員、バリエータ、デプロイャー)と攻撃者(乗っ取り組み、不正な行動、アン・アライアンスコンビニョミネーションまたは最悪条件のFailureモード、またはその他の最悪の状態)、Stackelberg安全保障ゲーム(SSG)に基づくAI安全性について新しい視点を提出します。これらのセキュリティ資源配分に設計された一連の戦略的模型です. セキュリティゲームモデルは、動的な敵対者行動で攻撃者の行動と状況下のための一貫した相互作用と、AIライフサイクル全体の合意デザイン、見込み不足な管理力、および動的に配分される攻撃的不確実性に統一したフレームワークを提供します。この模型は、トレーニング時の監査に対するデータ/フィードバックの汚染への対応と展開前評価で制約のあるレビュァーリソースによって行われる、そして攻撃的な環境でマルチモデル展開が強化された状況に適用されるのについて説明するために組み立てられます。これはアロガティブなAI監視、リスク管理とともにゲーム理論的は威慑性を活用する観点からAI監視への合意デザインと橋を結びます。

Original Content

arXiv:2602.07259v1 Announce Type: new Abstract: As AI systems grow more capable and autonomous, ensuring their safety and reliability requires not only model-level alignment but also strategic oversight of the humans and institutions involved in their development and deployment. Existing safety frameworks largely treat alignment as a static optimization problem (e.g., tuning models to desired behavior) while overlooking the dynamic, adversarial incentives that shape how data are collected, how models are evaluated, and how they are ultimately deployed. We propose a new perspective on AI safety grounded in Stackelberg Security Games (SSGs): a class of game-theoretic models designed for adversarial resource allocation under uncertainty. By viewing AI oversight as a strategic interaction between defenders (auditors, evaluators, and deployers) and attackers (malicious actors, misaligned contributors, or worst-case failure modes), SSGs provide a unifying framework for reasoning about incentive design, limited oversight capacity, and adversarial uncertainty across the AI lifecycle. We illustrate how this framework can inform (1) training-time auditing against data/feedback poisoning, (2) pre-deployment evaluation under constrained reviewer resources, and (3) robust multi-model deployment in adversarial environments. This synthesis bridges algorithmic alignment and institutional oversight design, highlighting how game-theoretic deterrence can make AI oversight proactive, risk-aware, and resilient to manipulation.