Back to list
Spectral Tempering for Embedding Compression in Dense Passage Retrieval
Spectral Tempering for Embedding Compression in Dense Passage Retrieval
Translated: 2026/4/20 11:18:56
Japanese Translation
arXiv:2603.19339v2 Announce Type: replace-cross
Abstract: スケールに渡って稠密検索システムの展開において、次元削減は決定的に重要です。しかし、主流の事後方法には基本的なトレードオフが存在します。主成分分析 (PCA) は支配的な分異を保存しますが表現能力を未充分利用しており、一方、ホワイト化は等方性を強制するが、検索埋め込みの重尾固有スペクトルにおけるノイズを増幅させるコストを伴います。中間的なスペクトルスケーリング手法はこれら二つの極端点を統合し、次元を幂係数 $\\\\\\\\\gamma$ で再加重しますが、これをタスクに依存する最適化が必要とする固定ハイパーパラメータと扱います。本稿では、最適なスケーリング強度 $\\\\gamma$ はグローバルな定数ではなく、目標次元 $k$ に系統的に変化し、保留サブスペースの信雑比 (SNR) によって支配されていることを示します。この知見に基づき、スペクトルテンプリング (SpecTemp) という学習不要の手法を提案します。この手法は、コピュア固有スペクトルから局所 SNR 解析と膝点正規化を用いて、直接適応的な $\\\\gamma(k)$ を導出し、ラベル付与データや検証ベースの探索を必要としません。大規模な実験により、SpecTemp はグリッドサーチで得られた $\\\\gamma^*(k)$ に対する近似的にオラクル的な性能を常に達成しつつ、完全に学習不要かつモデル非特異であることを証明しました。当社のコードは https://github.com/liyongkang123/SpecTemp に公開されています。
Original Content
arXiv:2603.19339v2 Announce Type: replace-cross
Abstract: Dimensionality reduction is critical for deploying dense retrieval systems at scale, yet mainstream post-hoc methods face a fundamental trade-off: principal component analysis (PCA) preserves dominant variance but underutilizes representational capacity, while whitening enforces isotropy at the cost of amplifying noise in the heavy-tailed eigenspectrum of retrieval embeddings. Intermediate spectral scaling methods unify these extremes by reweighting dimensions with a power coefficient $\gamma$, but treat $\gamma$ as a fixed hyperparameter that requires task-specific tuning. We show that the optimal scaling strength $\gamma$ is not a global constant: it varies systematically with target dimensionality $k$ and is governed by the signal-to-noise ratio (SNR) of the retained subspace. Based on this insight, we propose Spectral Tempering (\textbf{SpecTemp}), a learning-free method that derives an adaptive $\gamma(k)$ directly from the corpus eigenspectrum using local SNR analysis and knee-point normalization, requiring no labeled data or validation-based search. Extensive experiments demonstrate that Spectral Tempering consistently achieves near-oracle performance relative to grid-searched $\gamma^*(k)$ while remaining fully learning-free and model-agnostic. Our code is publicly available at https://github.com/liyongkang123/SpecTemp.