Back to list
arxiv_cs_ai 2026年2月10日

修剪は協力ゲーム:大規模言語モデルの層貢献推定に統計的代理体を用いたアプローチ

Pruning as a Cooperative Game: Surrogate-Assisted Layer Contribution Estimation for Large Language Models

Translated: 2026/3/7 13:13:49
layer-pruningcooperative-gamesurrogate-assistedlarge-language-models

Japanese Translation

大きな言語モデル(LLMs)が様々なタスクで優れたパフォーマンスを示してきたにもかかわらず、リアルワールドのシナリオでの実装は、計算負荷が高いことをまだ制約されています。層別削減という、労力を削减するための一般的に用いられる統合戦略では、この問題が一部解決されています。しかし、これまでの方法は静的なヒューリスティックルールに依存していますし、層間の相互作用に関する事情は考慮しませんので、この削減プロセスに対して生産性が保たれていません。そこで、本論では層別削減を労務戦略として解釈するためにゲーム理論的なフレームワークが提案されています。各層がプレイヤーであり、モデルのパフォーマンスは労働成果となります。”計算的な不確実性により、大きな言語モデル(LLMs)に対するシャープレー値を正確に把握するのは計算的に無可行性であるため、この研究では軽量な統合ネットワークを使って層別で利益への変化を予測する。そのネットワークは任意の範囲組み合わせによる、少ない計算コストでLLMパフォーマンスを予想することができます。さらに、シャープレー値の評価にはステラリッタ確率法を使用します。これにより、それぞれ間層の相互作用や動的で重要とされる層を選定することができる戦略です。これらの実験の結果は、パーゼルクエジーとゼロショット正確性に関して一貫性のある優位性を示しています、その結果として大きな言語モデルに対しても更に効果的な層別削減が可能なことを示しています。

Original Content

arXiv:2602.07804v1 Announce Type: cross Abstract: While large language models (LLMs) demonstrate impressive performance across various tasks, their deployment in real-world scenarios is still constrained by high computational demands. Layer-wise pruning, a commonly employed strategy to mitigate inference costs, can partially address this challenge. However, existing approaches generally depend on static heuristic rules and fail to account for the interdependencies among layers, thereby limiting the effectiveness of the pruning process. To this end, this paper proposes a game-theoretic framework that formulates layer pruning as a cooperative game in which each layer acts as a player and model performance serves as the utility. As computing exact Shapley values is computationally infeasible for large language models (LLMs), we propose using a lightweight surrogate network to estimate layer-wise marginal contributions. This network can predict LLM performance for arbitrary layer combinations at a low computational cost. Additionally, we employ stratified Monte Carlo mask sampling to further reduce the cost of Sharpley value estimation. This approach captures inter-layer dependencies and dynamically identifies critical layers for pruning. Extensive experiments demonstrate the consistent superiority of our method in terms of perplexity and zero-shot accuracy, achieving more efficient and effective layer-wise pruning for large language models.