Back to list
arxiv_cs_ai 2026年2月10日

何層をスキップする:LLMsにResidualゲートを学ぶ

What Layers When: Learning to Skip Compute in LLMs with Residual Gates

Translated: 2026/2/14 8:08:17

Japanese Translation

arXiv:2510.13876v3 の種類: 代用-交叉関連 抄録:我々はGateSkipを提示することになります、これはデコーダー専用のLLM(ロングフォーム)にトークン単位で層をスキップさせる、単純な残余ストリームゲート機構です。各Attention/MLPブランチには、サインoid- linea化ゲートが装備されており、このブランチのアウトプットを再参加前に強調します。展開時の実践では、これらのゲートの値でトークンをおさらいし、低下する価値のあるトークンをスキップします。 エアラータクやルーターに基づいて、モーフィケーション・オブ・デプスモデルは安定性がないのが知られていますが、我々の柔らかい、可微分的なゲートは、事前の展開されているモデルに基づいて平穏に微調整されます。 ロング・フォームの推論では、コンピューティングに対して至るまで 15% を節約し、最も重要なトークンの90%以上の基準値の正確さを保持します。増えていコラモのモデルについては、このトランジットが巨大になります。インSTRUCTIONSをトレーニングしたモデルの点では、推定中に最大な構成についてより多くの精度変化があります(たとえばBOSトークンがエッジを形成します)。 知覚したゲートは、transformer情報フロウに洞察を与えます(などBOS トークンがエッジを形成します)、このメソッドは簡単にクオータネーション、プリング、自作する推論と組みことができます。

Original Content

arXiv:2510.13876v3 Announce Type: replace-cross Abstract: We introduce GateSkip, a simple residual-stream gating mechanism that enables token-wise layer skipping in decoder-only LMs. Each Attention/MLP branch is equipped with a sigmoid-linear gate that condenses the branch's output before it re-enters the residual stream. During inference we rank tokens by the gate values and skip low-importance ones using a per-layer budget. While early-exit or router-based Mixture-of-Depths models are known to be unstable and need extensive retraining, our smooth, differentiable gates fine-tune stably on top of pretrained models. On long-form reasoning, we save up to 15% compute while retaining over 90% of baseline accuracy. For increasingly larger models, this tradeoff improves drastically. On instruction-tuned models we see accuracy gains at full compute and match baseline quality near 50% savings. The learned gates give insight into transformer information flow (e.g., BOS tokens act as anchors), and the method combines easily with quantization, pruning, and self-speculative decoding.