Back to list
arxiv_cs_lg 2026年2月10日

ManifoldKV: Euclidian 異方性検出に基づく訓練なし KV キャッシュ圧縮

ManifoldKV: Training-Free KV Cache Compression via Euclidean Outlier Detection

Translated: 2026/3/15 16:05:38
manifoldkvkv-cacheeuclidean-distancelong-contextcompression

Japanese Translation

論文: arXiv:2602.08343v1 発表型: 新しい 要約:長文脈推論は KVキャッシュのメモリ容量に制限されており、この容量はシーケンス長に線形的に増大するため、KVキャッシュの圧縮はどの過去トークンを保持するかを信頼できる方法で選択する点に依存します。多くの幾何学的エビクション方法は、鍵をグローバルセントロイドとの余弦類似度でスコアリングしますが、余弦はスケール不変であり、文法的に重要なトークンを区別する大きさのヒントを捨てる可能性があります。我々は、角度および放射偏りを両方捉えるために、鍵セントロイドへのユークリッド距離に基づいてトークンをランク付けする、訓練なしスコアリング関数 ManifoldKV を提案します。 RULER ベンチマークでは、ManifoldKV は 4K〜16K の文脈で 20% の圧縮で 95.7% の精度を実現し、これは最大の幾何学的基準と一致し、余弦スコアリングが失敗する 2 つの体制において頑健性を向上させます。第一に、マルチキー検索において、ManifoldKV は方向性の衝突を減少させ、50% の圧縮、3 キー NIAH において KeyDiff の 77.0% よりも 15.4 ポイント高い 92.4% を達成しました。第二に、64K 文脈におけるグローバルセントロイドの希釈とパフォーマンス崩壊に対処するために、我々は、グローバル L2 とは 49 ポイントの回復、KeyDiff よりも 3.2 ポイント高く 25% の圧縮で 84.3% の精度を回復させる WindowedManifoldKV を導入しました。この方法はコードの 3 行だけで済み、4 つのアーキテクチャ全体でチューニングなしで動作します。

Original Content

arXiv:2602.08343v1 Announce Type: new Abstract: Long-context inference is constrained by KV-cache memory, which grows linearly with sequence length; KV-cache compression therefore hinges on reliably selecting which past tokens to retain. Most geometry-based eviction methods score keys by cosine similarity to a global centroid, but cosine is scale-invariant and can discard magnitude cues that distinguish semantically salient tokens. We propose ManifoldKV, a training-free scorer that ranks tokens by Euclidean distance to the key centroid, capturing both angular and radial deviations. On the RULER benchmark, ManifoldKV achieves 95.7% accuracy at 4K-16K contexts with 20% compression; matching the best geometric baseline while improving robustness in two regimes where cosine scoring fails. First, on multi-key retrieval, ManifoldKV reduces directional collisions, achieving 92.4% vs KeyDiff's 77.0% (+15.4 points) on 3-key NIAH at 50% compression. Second, to address dilution and performance collapse of global centroids at 64K context, we introduce WindowedManifoldKV, which restores accuracy to 84.3% at 25% compression, a 49-point recovery over global L2 and +3.2 points over KeyDiff. The method requires only 3 lines of code and works across 4 architectures without tuning.