Back to list
arxiv_cs_lg 2026年2月10日

明示的戦略最適化:敵対的ポーカー環境における長期的意思決定の再考

Implicit Strategic Optimization: Rethinking Long-Horizon Decision-Making in Adversarial Poker Environments

Translated: 2026/3/15 15:01:16
implicit-strategic-optimizationadversarial-aillm-agentsno-limit-texas-holdemstrategic-externality

Japanese Translation

arXiv:2602.08041v1 Announce Type: new Abstract: 敵対的ゲームに大規模言語モデル(LLM)エージェントを訓練することは、勝率などのエピソード目標によって駆動されることが多い。しかし、長期的な環境では、潜在的な戦略的外部性が時間とともに進化し、収益が形作られるため、短視的な最適化や変化に基づく後悔解析は、ダイナミクスが予測可能である場合であっても無意味になり得る。この問題を解決するために、我々は各エージェントが現在の戦略的文脈を予測し、それを用いてポリシーをオンラインで更新する「明示的戦略最適化(ISO: Implicit Strategic Optimization)」という予測感知のフレームワークを導入した。ISO は、行動の長期的戦略価値を推定する戦略報酬モデル(SRM)と、文脈条件下の積極的な学習ルールである iso-grpo を組み合わせています。我々は、文脈の誤予測の数をスケールする主要項を持つ次線形文脈後悔と均衡収束保証を証明しました。誤予測が制限されている場合、我々の枠組みは戦略的外部性が既知である場合得られる静的ゲームのレートに戻ります。6 人のプレイヤーによるノーリミットテキサスホールデームや対抗的なポケモンにおける実験では、強い LLM と RL ベースラインよりも一貫して長期的な報酬が改善され、制御された予測ノイズに対する優雅な劣化が観察されました。

Original Content

arXiv:2602.08041v1 Announce Type: new Abstract: Training large language model (LLM) agents for adversarial games is often driven by episodic objectives such as win rate. In long-horizon settings, however, payoffs are shaped by latent strategic externalities that evolve over time, so myopic optimization and variation-based regret analyses can become vacuous even when the dynamics are predictable. To solve this problem, we introduce Implicit Strategic Optimization (ISO), a prediction-aware framework in which each agent forecasts the current strategic context and uses it to update its policy online. ISO combines a Strategic Reward Model (SRM) that estimates the long-run strategic value of actions with iso-grpo, a context-conditioned optimistic learning rule. We prove sublinear contextual regret and equilibrium convergence guarantees whose dominant terms scale with the number of context mispredictions; when prediction errors are bounded, our bounds recover the static-game rates obtained when strategic externalities are known. Experiments in 6-player No-Limit Texas Hold'em and competitive Pokemon show consistent improvements in long-term return over strong LLM and RL baselines, and graceful degradation under controlled prediction noise.