Back to list
大規模言語モデルにおける拒否の幾何学:概念コーンと表現独立性
The Geometry of Refusal in Large Language Models: Concept Cones and Representational Independence
Translated: 2026/3/15 9:03:58
Japanese Translation
arXiv:2502.17420v2 Announce Type: replace
要旨:大規模言語モデル (LLMs) の安全性の整合性は、敵対的に作成された入力によって回避される可能性があるが、これらの攻撃が安全の障壁をどのように回避するかは十分に理解されていない。先鋭の研究は、モデルの活性化空間内の単一の拒否方向が LLM がリクエストを拒否するかどうかを決定すると示唆している。本研究では、我々はノビな勾配ベースの表現工学のアプローチを提案し、これを拒否方向の識別に適用した。先鋭の研究とは対照的に、我々は複数の相互独立な方向、そして拒否を中介する多次元の概念コーンを発見した。さらに、我々は直交性が干渉の下では独立を意味しないことを示し、線形および非線形の影響の両方を含んだ表現独立性という概念を動機付けた。このフレームワークを用いて、我々は機能的に独立した拒否方向を識別した。LLMs における拒否メカニズムは複雑な空間構造によって支配されていることを示し、機能的に独立した方向を特定し、複数の異なるメカニズムが拒否行動を駆動していることを確認した。我々の勾配ベースのアプローチはこれらのメカニズムを発見し、LLMs を理解するための将来の研究の基礎として機能することもできる。
Original Content
arXiv:2502.17420v2 Announce Type: replace
Abstract: The safety alignment of large language models (LLMs) can be circumvented through adversarially crafted inputs, yet the mechanisms by which these attacks bypass safety barriers remain poorly understood. Prior work suggests that a single refusal direction in the model's activation space determines whether an LLM refuses a request. In this study, we propose a novel gradient-based approach to representation engineering and use it to identify refusal directions. Contrary to prior work, we uncover multiple independent directions and even multi-dimensional concept cones that mediate refusal. Moreover, we show that orthogonality alone does not imply independence under intervention, motivating the notion of representational independence that accounts for both linear and non-linear effects. Using this framework, we identify mechanistically independent refusal directions. We show that refusal mechanisms in LLMs are governed by complex spatial structures and identify functionally independent directions, confirming that multiple distinct mechanisms drive refusal behavior. Our gradient-based approach uncovers these mechanisms and can further serve as a foundation for future work on understanding LLMs.