Back to list
arxiv_cs_lg 2026年4月24日

LLM の不確実性と正解性は同じ特徴でエンコードされるのか?スパースオートエンコーダーによる機能的分離

Are LLM Uncertainty and Correctness Encoded by the Same Features? A Functional Dissociation via Sparse Autoencoders

Translated: 2026/4/24 19:55:11
llmsparse-autoencodersuncertainty-estimationmodel-interpretabilityfeature-analysis

Japanese Translation

arXiv:2604.19974v1 Announce Type: new Abstract: 大規模言語モデル(LLM)は確実でありながら正解の場合も、自信を持って誤答することもあり、その出力レベルの不確実性と実際の正解性が、同じ内部機構によって駆動されているのか、それとも異なる特徴量群によって駆動されているのかという疑問が投げかけられています。当研究では、予測を正解性および自信の軸に沿って分割する 2x2 フレームワークを導入し、スパースオートエンコーダーを利用することで、各次元に関連する特徴量を個別に特定しました。Llama-3.1-8B および Gemma-2-9B にこの手法を適用した結果、3 つ fundamentally 異なる機能的役割を果たす特徴量群を特定しました。純粋な不確実性特徴量は機能的に不可欠であり、これを抑制すると精度が著しく低下します。純粋な誤答特徴量は機能的に無効であり、正解と誤答の予測間で統計的に有意な活性化の差分を示しているにもかかわらず、抑制時に精度の変化がほとんどありません。一方、両方の信号をエンコードする混在特徴量は出力品質に悪影響を与え、標的指向的な抑制を行うと精度が 1.1% 向上し、エントロピーが 75% 減少します。この効果は ARC-Challenge および RACE ベンチマークにおいて跨って現れました。特徴量カテゴリは情報的に異なり、単一の中間レイヤーからの 3 つの混在特徴量の活性化 alone でモデルの正解率(AUROC ~0.79)を予測することができ、選択的な abstention(放棄)を行うことで、53% の被覆率で精度を 62% から 81% へ向上させました。これらの結果は、不確実性と正解性が異なった内部現象であることを示しており、これは可視性および標的指向的な推論時介入への示唆を与えます。

Original Content

arXiv:2604.19974v1 Announce Type: new Abstract: Large language models can be uncertain yet correct, or confident yet wrong, raising the question of whether their output-level uncertainty and their actual correctness are driven by the same internal mechanisms or by distinct feature populations. We introduce a 2x2 framework that partitions model predictions along correctness and confidence axes, and uses sparse autoencoders to identify features associated with each dimension independently. Applying this to Llama-3.1-8B and Gemma-2-9B, we identify three feature populations that play fundamentally different functional roles. Pure uncertainty features are functionally essential: suppressing them severely degrades accuracy. Pure incorrectness features are functionally inert: despite showing statistically significant activation differences between correct and incorrect predictions, the majority produce near-zero change in accuracy when suppressed. Confounded features that encode both signals are detrimental to output quality, and targeted suppression of them yields a 1.1% accuracy improvement and a 75% entropy reduction, with effects transferring across the ARC-Challenge and RACE benchmarks. The feature categories are also informationally distinct: the activations of just 3 confounded features from a single mid-network layer predict model correctness (AUROC ~0.79), enabling selective abstention that raises accuracy from 62% to 81% at 53% coverage. The results demonstrate that uncertainty and correctness are distinct internal phenomena, with implications for interpretability and targeted inference-time intervention.