Back to list
arxiv_cs_ai 2026年2月10日

DeltaKV:長距離類似性に基づくKVキャッシュ圧縮方法

DeltaKV: Residual-Based KV Cache Compression via Long-Range Similarity

Translated: 2026/3/7 13:20:38
机器学习词汇表示技术推理引擎压缩库

Japanese Translation

高精度な長い文脈のあるLLMsのアプリケーション(自律型オブジェクト、連鎖考え、創造的な作文など)での展開は fundamentally、多くのKVキャッシュメモリの増加が瓶颈になります。 現代の圧縮と退避方法は精度、圧縮割合、ハードウェア効率をバランスよく維持しにくいです。 特定の原因である長距離間のトークンの類似性とKV表示化に含まれる多くの共有した隠れたコンポーネントに基づき、DeltaKVとしては積み重ねベースのKVキャッシュ圧縮フレームワークを提案します。 データを破棄しないでください: DeltaKVは、再現された歴史的参照から推測されたセマンチカルリザードンをエンコードし、その像を維持しつつ効率的にメモリを節約します。 本質的な圧縮利得を実際のシステム速度向上に変換しようとして、Spase-vLLMはまた、sparseと不規則なKVレイアウトのために分離されたメモリー管理とキーボルトが最適化されている推理エンジンを導入します。 テストではDeltaKVがLongBench, SCBench、AIME上での、原状の29%以下のKVキャッシュメモリで維持されつつも、近い失態的な精度を表示することが示されました。 Sparse-vLLMに統合すると、長文脈なシナリオではvLLMの至高点を2倍にするまで、DeltaKVはアップします。コード、モデルチェックポイントとデータセットは全てhttps://github.com/CURRENTF/Sparse-vLLMを参照してください。

Original Content

arXiv:2602.08005v1 Announce Type: cross Abstract: The deployment of efficient long-context LLMs in applications like autonomous agents, long-chain reasoning, and creative writing is fundamentally bottlenecked by the linear growth of KV cache memory. Existing compression and eviction methods often struggle to balance accuracy, compression ratio, and hardware efficiency. We propose DeltaKV, a residual-based KV cache compression framework motivated by two empirical findings: long-range inter-token similarity and highly shared latent components in KV representations. Instead of discarding tokens, DeltaKV encodes semantic residuals relative to retrieved historical references, preserving fidelity while substantially reducing storage. To translate compression gains into real system speedups, we further introduce Sparse-vLLM, a high-performance inference engine with decoupled memory management and kernels optimized for sparse and irregular KV layouts. Experiments show that DeltaKV reduces KV cache memory to 29\% of the original while maintaining near-lossless accuracy on LongBench, SCBench, and AIME. When integrated with Sparse-vLLM, it achieves up to 2$\times$ throughput improvement over vLLM in long-context scenarios, demonstrating a practical path toward scalable long-context LLM deployment. Code, model checkpoints, and datasets are available at https://github.com/CURRENTF/Sparse-vLLM.