Back to list
Linearization Explains Fine-Tuning in Large Language Models
Linearization Explains Fine-Tuning in Large Language Models
Translated: 2026/3/15 15:03:34
Japanese Translation
arXiv:2602.08239v1 Announce Type: new
要約:パラメータ効率的な微調整 (PEFT) は、大型モデルをスケーラブルかつリソース効率よく適応させるために策められた人気のある技術のクラスです。しかし、それらの学習性能と一般化を支配するメカニズムは未だに十分に探索されていません。本論文では、線形化の視点を通じてそのような微調整についていくつかの洞察を提供します。微調整されたモデルは、しばしば事前学習モデルとの近さを維持するように暗黙的に誘導されます。このことを明示するために、パラメータ空間におけるユークリッド距離の誘導バイアスを採用すると、微調整ダイナミクスは正定数のニューラルタンジェントカーネル (NTK) を持つ学習に等しいことが示されました。特に、線形化された微調整最適化が、正則化の強さに基づいてどの程度線形近似に近いかを分析しました。これにより、大型言語モデル (LLM) を微調整する際、モデルの線形化がどれほど良いかを实践的に評価することが可能になりました。線形化が良い場合、我々の発見は NTK の固有値スペクトルとモデル適応性能の間に強い相関が存在することを示しました。これに基づき、微調整のために選択されたレイヤーの選択によって NTK に誘起されるスペクトル擾動境界を与えました。我々の理論は、LLM における低ランク適応 (LoRA) に基づいて実証的に検証されました。これらの洞察は微調整を特徴付けるだけでなく、PEFT 技術の向上にも潜在的な可能性があり、LLM におけるより情報に富み機敏な適応への道を開きます。
Original Content
arXiv:2602.08239v1 Announce Type: new
Abstract: Parameter-Efficient Fine-Tuning (PEFT) is a popular class of techniques that strive to adapt large models in a scalable and resource-efficient manner. Yet, the mechanisms underlying their training performance and generalization remain underexplored. In this paper, we provide several insights into such fine-tuning through the lens of linearization. Fine-tuned models are often implicitly encouraged to remain close to the pretrained model. By making this explicit, using an Euclidean distance inductive bias in parameter space, we show that fine-tuning dynamics become equivalent to learning with the positive-definite neural tangent kernel (NTK). We specifically analyze how close the fully linear and the linearized fine-tuning optimizations are, based on the strength of the regularization. This allows us to be pragmatic about how good a model linearization is when fine-tuning large language models (LLMs). When linearization is a good model, our findings reveal a strong correlation between the eigenvalue spectrum of the NTK and the performance of model adaptation. Motivated by this, we give spectral perturbation bounds on the NTK induced by the choice of layers selected for fine-tuning. We empirically validate our theory on Low Rank Adaptation (LoRA) on LLMs. These insights not only characterize fine-tuning but also have the potential to enhance PEFT techniques, paving the way to better informed and more nimble adaptation in LLMs.