Back to list
arxiv_cs_lg 2026年2月10日

SpecAttn: スパースアテンションと自己推測解法との共設計

SpecAttn: Co-Designing Sparse Attention with Self-Speculative Decoding

Translated: 2026/3/15 13:05:12
large-language-modelssparse-attentionself-speculative-decodingkv-cacheinference-optimization

Japanese Translation

arXiv:2602.07223v1 発表 タイプ:新規 要旨:現在、長文脈大規模言語モデル(LLM)の推論は、AI アプリケーションの標準化されてきましたが、KV キャッシュの記憶需要の増加により重く制限されています。以前のアプローチでは、トークンの草稿に KV キャッシュのサブセットを使用し、フル KV キャッシュと並列して検証する自己推測解法とスパースアテンションが、損失のない速度向上をもたらすことが示されています。しかし、この方法は独立した KV 選択アルゴリズムに依存しており、各 KV エンツリーの重要性が本質的に検証中に計算されることを無視しています。本研究では、検証による導かれるスパースアテンションを備えた自己推測解法である SpecAttn を提案します。SpecAttn は検証の副産物として重要な KV エンツアイを特定し、それらのエンティアイのみを次のトークンの草稿に読み込みます。これにより、草稿トークンの受容率が向上し、低 KV 選択オーバーヘッドが発生し、デコードのスループットが改善されます。SpecAttn は、バニラオートリレーティブデコーディングに対して 2.81 倍の、state-of-the-art のスパース性に基づく自己推測解法に対して 1.29 倍の性能向上を実現しました。

Original Content

arXiv:2602.07223v1 Announce Type: new Abstract: Long-context large language model (LLM) inference has become the norm for today's AI applications. However, it is severely bottlenecked by the increasing memory demands of its KV cache. Previous works have shown that self-speculative decoding with sparse attention, where tokens are drafted using a subset of the KV cache and verified in parallel with full KV cache, speeds up inference in a lossless way. However, this approach relies on standalone KV selection algorithms to select the KV entries used for drafting and overlooks that the criticality of each KV entry is inherently computed during verification. In this paper, we propose SpecAttn, a self-speculative decoding method with verification-guided sparse attention. SpecAttn identifies critical KV entries as a byproduct of verification and only loads these entries when drafting subsequent tokens. This not only improves draft token acceptance rate but also incurs low KV selection overhead, thereby improving decoding throughput. SpecAttn achieves 2.81$\times$ higher throughput over vanilla auto-regressive decoding and 1.29$\times$ improvement over state-of-the-art sparsity-based self-speculative decoding methods.