Back to list
arxiv_cs_lg 2026年2月10日

移動型 MOBA ゲームにおける軽量 AI エージェントの蒸留を導く パレ托最適化パイプライン

Pareto-guided Pipeline for Distilling Featherweight AI Agents in Mobile MOBA Games

Translated: 2026/3/15 14:08:11
aimobile-gamingmachine-learningreinforcement-learningagent-based-systems

Japanese Translation

arXiv:2602.07521v1 発表タイプ:新規 摘要:最近のゲーム AI 技術の進展により、 Honor of Kings(以下 HoK)といった複雑な環境において、人間の上級プロフェッショナルを凌駕するエージェントの訓練が実現可能であることが示されています。しかし、このような強力なエージェントをモバイルデバイスに実装することは依然として重大な課題です。一方面、HoK の多式的状態表現と階層的行動空間は、軽量化に困難な大規模で洗練されたポリシーネットワークを必要とします。他方、モバイルプラットフォームでの本格的な実装においては、厳しいエネルギーと遅延制約の中で高周波数の推論が要求されます。我々の知る限り、大規模なゲーム AI と実際のオンデバイス実装との架橋は体系的に研究されていません。本研究では、我々は パレ托最適性を導くパイプラインを提案し、モバイル実行に特化した高効率な学生アーキテクチャ探索領域を設計しました。これにより、性能と効率のトレードオフの体系的な探索を可能としました。実験結果は、蒸留されたモデルが卓越した効率性を達成していることを示しています。具体的には、推論速度が元の教師モデルに対して $12.4 imes$ 速く(0.5ms/フレーム以下)、エネルギー効率も $15.6 imes$ 向上(0.5mAh/ゲーム以下)し、元の教師モデルとの対戦勝率は 40.32% を維持しました。

Original Content

arXiv:2602.07521v1 Announce Type: new Abstract: Recent advances in game AI have demonstrated the feasibility of training agents that surpass top-tier human professionals in complex environments such as Honor of Kings (HoK), a leading mobile multiplayer online battle arena (MOBA) game. However, deploying such powerful agents on mobile devices remains a major challenge. On one hand, the intricate multi-modal state representation and hierarchical action space of HoK demand large, sophisticated policy networks that are inherently difficult to compress into lightweight forms. On the other hand, production deployment requires high-frequency inference under strict energy and latency constraints on mobile platform. To the best of our knowledge, bridging large-scale game AI and practical on-device deployment has not been systematically studied. In this work, we propose a Pareto optimality guided pipeline and design a high-efficiency student architecture search space tailored for mobile execution, enabling systematic exploration of the trade-off between performance and efficiency. Experimental results demonstrate that the distilled model achieves remarkable efficiency, including an $12.4\times$ faster inference speed (under 0.5ms per frame) and a $15.6\times$ improvement in energy efficiency (under 0.5mAh per game), while retaining a 40.32% win rate against the original teacher model.