Back to list
arxiv_cs_lg 2026年4月24日

メカニズム可視化におけるスパース辞書学習の統一理論:断片的双凸性と偽の極小値

A Unified Theory of Sparse Dictionary Learning in Mechanistic Interpretability: Piecewise Biconvexity and Spurious Minima

Translated: 2026/4/24 20:09:17
sparse-dictionary-learningmechanistic-interpretabilitypiecewise-biconvexityspurious-minimaneural-representations

Japanese Translation

arXiv:2512.05534v5 Announce Type: replace 要約: AI モデルが多様なドメインにおいて驚異的な能力を模索する中、彼らが何を学習し、どのように概念を符号化しているかを理解することは、科学的進歩と信頼性の高いデプロイメントのためにますます重要になっています。最近のメカニズム可視化の研究では、ニューラルネットワークが意味ある概念をその表現空間内の線形方向として表し、しばしば異なる概念を上積みにして符号化すると広く報告されています。これに対抗するために、スパース辞書学習 (SDL) の方法—including スパースオートエンコーダー、トランスコダー、クロスコダー— は、これらの上積みされた概念を単一意味の特徴へと解鎖するために、疎性制約付きの補助モデルを訓練することで対応しています。これらの方法は現代のメカニズム可視化の骨格でありながら、実際にはこれらの方法は多義的な特徴、特徴吸収、および死亡ニューロンを常に生み出し、これらの現象がなぜ起こるかについての理論的理解は非常に限られていました。既存の理論的な研究は、重み付きのスパースオートエンコーダーに限定されており、広範な SDL の方法に対して形式的な基礎を提供していません。私たちは、主要な SDL バリアントをすべて単一の断片的双凸最適化問題として扱う最初の統一理論的枠組みを開発し、その全局解集、非識別性、および偽の極値を特徴づけます。この分析は、特徴吸収と死亡ニューロンに対する原理的な説明をもたらします。これらの病理を完全な真偽データアクセス下で暴露するために、我々は「線形表現ベンチ」を導入しました。我々の理論に基づき、SDL の識別性を回復させるための新しい技術である「特徴アンカリング」を提案し、合成ベンチマークと実際のニューラル表現において大幅に特徴復元性能を向上させました。

Original Content

arXiv:2512.05534v5 Announce Type: replace Abstract: As AI models achieve remarkable capabilities across diverse domains, understanding what representations they learn and how they encode concepts has become increasingly important for both scientific progress and trustworthy deployment. Recent works in mechanistic interpretability have widely reported that neural networks represent meaningful concepts as linear directions in their representation spaces and often encode diverse concepts in superposition. Various sparse dictionary learning (SDL) methods, including sparse autoencoders, transcoders, and crosscoders, are utilized to address this by training auxiliary models with sparsity constraints to disentangle these superposed concepts into monosemantic features. These methods are the backbone of modern mechanistic interpretability, yet in practice they consistently produce polysemantic features, feature absorption, and dead neurons, with very limited theoretical understanding of why these phenomena occur. Existing theoretical work is limited to tied-weight sparse autoencoders, leaving the broader family of SDL methods without formal grounding. We develop the first unified theoretical framework that casts all major SDL variants as a single piecewise biconvex optimization problem, and characterize its global solution set, non-identifiability, and spurious optima. This analysis yields principled explanations for feature absorption and dead neurons. To expose these pathologies under full ground-truth access, we introduce the Linear Representation Bench. Guided by our theory, we propose feature anchoring, a novel technique that restores SDL identifiability, substantially improving feature recovery across synthetic benchmarks and real neural representations.