arxiv_cs_lg 2026年2月10日

Large Language Model における可視制御した価値对齐の手法：ニューロンレベル編集を通じたアプローチ

Controllable Value Alignment in Large Language Models through Neuron-Level Editing

Translated: 2026/3/15 14:05:17

large-language-modelsvalue-alignmentneuron-editingreinforcement-learningllm-interpretability

Japanese Translation

arXiv:2602.07356v1 Announce Type: new 要約：大規模言語モデル (LLM) が人間の行動や意思決定への影響が拡大したことにより、人間の価値観と LLM を对齐させることはますます重要になっています。しかし、既存のステアリングに基づく对齐手法は制御性の限界に直面しており、目標値を操作する際に意図せず他の非目標値が活性化される現象が生じがちです。この限界を定量的に特徴付けるために、本研究では「値漏洩 (value leakage)」という診断的構念を提案し、それは価値ステアリング中の非目標値の意図外的活性化を捉えるとともに、スワーツの価値理論に基づいた正規化された漏洩指標を含みます。この分析に基づき、我々は LLM における可視制御した価値对齐のためのニューロンレベル編集フレームワーク「NeVA」を提案しました。NeVA は価値に関連するスパースなニューロンを特定し、推論時における活性化編集を実行することで、パラメータ更新や再トレーニングの必要性を伴わずに微細な制御を可能にします。実験结果表明、NeVA は強い目標値对齐を実現すると同時に、一般的な能力に対するパフォーマンス低下は最小限に抑えられています。さらに、NeVA は平均的な漏洩を大幅に削減し、その残存効果は主にセマンティックに関連する価値クラスに限定されています。総じて、NeVA は価値对齐におけるより制御性が高く解釈可能なメカニズムを提供します。

Original Content

arXiv:2602.07356v1 Announce Type: new Abstract: Aligning large language models (LLMs) with human values has become increasingly important as their influence on human behavior and decision-making expands. However, existing steering-based alignment methods suffer from limited controllability: steering a target value often unintentionally activates other, non-target values. To characterize this limitation, we introduce value leakage, a diagnostic notion that captures the unintended activation of non-target values during value steering, along with a normalized leakage metric grounded in Schwartz's value theory. In light of this analysis, we propose NeVA, a neuron-level editing framework for controllable value alignment in LLMs. NeVA identifies sparse, value-relevant neurons and performs inference-time activation editing, enabling fine-grained control without parameter updates or retraining. Experiments show that NeVA achieves stronger target value alignment while incurring smaller performance degradation on general capability. Moreover, NeVA significantly reduces the average leakage, with residual effects largely confined to semantically related value classes. Overall, NeVA offers a more controllable and interpretable mechanism for value alignment.