Back to list
緊急の不整合は容易だが、狭い不整合は難しい
Emergent Misalignment is Easy, Narrow Misalignment is Hard
Translated: 2026/3/7 9:06:32
Japanese Translation
arXiv:2602.07852v1 新しく投稿種類:new 抄録: largescale言語モデルを狭義的に有害なデータセットに微調整したときはこれらが緊急の非整定を引き起こし、異なる関連性ない複数のさまざまな設定に対して典型的に対象とする `悪' の応答を持つようにさせることがあります。 disturbingには、専門家向けの前注録された調査はこの結果を予測していません、これは largescale言語モデル (LLM) の学習と一般化が制約されている種類のインディケイティブバイアスについての私達の貧困な理解を明らかにしています。 largescale言語モデルの緊急の不整合(EM)としての事例研究によりこれらの個々のバイアスを探求し、モデルは狭義的なデータセットのタスクのみを学習することができましたが、一般的で安定性があり効率が良い解決策のようです。 を確認するためにもその結果に基づいていたので、異なる EM 微調整が同じ線形代表( generalizedな不整合)を形成することと同様です、そのようにその間に介入することができます。 これらの解釈をすることができますので比較することで、一般的な不整合というものは損失値が低く、影響力があり、訓練分布に抵抗性がありますようであり、狭義的な解釈は低い値を示します。したがってこの実際の代表( generalizedな不整合)を監視し、抑制するために私たちがソースコードとデータセットと微調整済みモデルを開放出しました。 较大スケール言語モデルについて一般化を形成するバイアスが形状しているかどうかについて詳細な事例研究と先行的な指標を見つけるのが具体的です。また、これは大型言語モデルの一般化に関する普遍的な指標も提供します。
Original Content
arXiv:2602.07852v1 Announce Type: new
Abstract: Finetuning large language models on narrowly harmful datasets can cause them to become emergently misaligned, giving stereotypically `evil' responses across diverse unrelated settings. Concerningly, a pre-registered survey of experts failed to predict this result, highlighting our poor understanding of the inductive biases governing learning and generalisation in LLMs. We use emergent misalignment (EM) as a case study to investigate these inductive biases and find that models can just learn the narrow dataset task, but that the general solution appears to be more stable and more efficient. To establish this, we build on the result that different EM finetunes converge to the same linear representation of general misalignment, which can be used to mediate misaligned behaviour. We find a linear representation of the narrow solution also exists, and can be learned by introducing a KL divergence loss. Comparing these representations reveals that general misalignment achieves lower loss, is more robust to perturbations, and is more influential in the pre-training distribution. This work isolates a concrete representation of general misalignment for monitoring and mitigation. More broadly, it offers a detailed case study and preliminary metrics for investigating how inductive biases shape generalisation in LLMs. We open-source all code, datasets and model finetunes.