Back to list
あなたの言いつのレコネクントに本質的な個性のサブネットワークが隠されている
Your Language Model Secretly Contains Personality Subnetworks
Translated: 2026/3/7 12:21:06
Japanese Translation
大規模な言語モデルを持つ人間は、異なるシチュエーションでポージンや行動姿勢を変えていきます。また、大きな言語モデルも社会的な状況によって変化するような人格と行動を模倣しています。しかし、現在のアプローチによりますと、これらの行動は通常、外的な知識、例えばプロンプト、取得補助生成(RAG)、または精密調整などから適応させられています。我々はどうすればよいでしょうか:大きな言語モデルが外的な環境やパラメータを必要とするかのように思えるのは本当にそうでしょうか,それとも本質的な知恵がそのパラメータ内部に埋め込まれているのですか?我々はこの仕事で、大規模な言語モデルがパラメーター空間内にポージン・特別適用サブネットワークを含んでいると示しました。小さな検証データセットを通じて、これらの性格の関連の異なるアクティベーションの特徴を特定する統計的に特定しました。この统计的でたらめからの戦略が、これらのポージン・サブネットワークのガラス化に役立ちます。さらに,我々は、反対性のサブネットワークを見つけ出すことが必要であるという結果を踏まえて説明します。それによって対立する性格を表現したいのです。そのために、我々は対対立の精神と行動に基づいて対応しやすいポージンのサブネットワークに対してプレミッシュ・ストラテジーを導入しました。対対立的な性質です。これは、訓練が不要で、外部的な知識が必要ない完全な方法です。大きな言語モデルにおいては、反対するキャラクターの強度が大幅に顕著であり、それゆえ、最適化されたモデルよりもパフォーマンスを向上させます。我々の結果は、またまた人間のような行動が、大規模な言語モデルのパラメータ空間中に嵌め込まれてしまっていることを示しています。これは、大型言語モデルについて新しい視点や操作性と自己解釈性を持つことが可能である事を示します。
Original Content
arXiv:2602.07164v1 Announce Type: cross
Abstract: Humans shift between different personas depending on social context. Large Language Models (LLMs) demonstrate a similar flexibility in adopting different personas and behaviors. Existing approaches, however, typically adapt such behavior through external knowledge such as prompting, retrieval-augmented generation (RAG), or fine-tuning. We ask: do LLMs really need external context or parameters to adapt to different behaviors, or do they already have such knowledge embedded in their parameters? In this work, we show that LLMs already contain persona-specialized subnetworks in their parameter space. Using small calibration datasets, we identify distinct activation signatures associated with different personas. Guided by these statistics, we develop a masking strategy that isolates lightweight persona subnetworks. Building on the findings, we further discuss: how can we discover opposing subnetwork from the model that lead to binary-opposing personas, such as introvert-extrovert? To further enhance separation in binary opposition scenarios, we introduce a contrastive pruning strategy that identifies parameters responsible for the statistical divergence between opposing personas. Our method is entirely training-free and relies solely on the language model's existing parameter space. Across diverse evaluation settings, the resulting subnetworks exhibit significantly stronger persona alignment than baselines that require external knowledge while being more efficient. Our findings suggest that diverse human-like behaviors are not merely induced in LLMs, but are already embedded in their parameter space, pointing toward a new perspective on controllable and interpretable personalization in large language models.