Back to list
arxiv_cs_lg 2026年2月10日

ODELoRA: 常微分方程式を用いた低ランク適応のトレーニング

ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations

Translated: 2026/3/15 14:07:40
lorafine-tuningodegradient-descentdeep-learning

Japanese Translation

arXiv:2602.07479v1 Announce Type: new 要約:低ランク適応 (LoRA) は、適応行列上の Burer-Monteiro 因子分解によりトレーニング可能なパラメータ数の減少とメモリ要件の低減をもたらしたため、ディープ・トランスファー・ラーニングにおいて広く採用されたパラメータ効率的な微調整手法となっています。しかし、古典的な LoRA トレーニング手法は低ランク因子行列を個別に取り扱い、標準的な勾配に基づくアルゴリズムで最適化しています。このような連立最適化スキームは理論的にも経験的にも非最適であり、LoRA パラメトリゼーションの固有構造を十分に活用できていません。本稿では、平衡多様体上のフル・ファインチューニングの勾配フローを模倣する形式の常微分方程式 (ODE) として、LoRA 因子行列に対して新たな連続時間最適化ダイナミクスを提案します。この手法を ODELoRA と呼びます。ODELoRA の軌跡を忠実に追うために、Euler 法や Runge--Kutta 法など、確立された理論的根拠に基づいた時間離散化スキームを採用しました。私たちのフレームワークは LoRA トレーニングアルゴリズムを理解し設計するための統一的な ODE ベースの視点を提供します。いくつかの離散化スキームと適切な条件下では、我々の手法は強く凸な最適化関数に対して線形収束することを示し、さらにマトリックスセンシング設定への分析拡張も行いました。また、ODELoRA は深層ニューラルネットワークのトレーニングにおいて、問題の次元スケールに関わらず重要な特性である安定した特徴学習を実現することを示しました。マトリックスセンシングタスクでの実験結果は導出された線形収束振る舞いを確認し、物理学インフォームドニューラルネットワークのトレーニングにおける実験は、ODELoRA が既存のベースラインよりも特にトレーニングの安定性において優れていることを示しました。

Original Content

arXiv:2602.07479v1 Announce Type: new Abstract: Low-rank adaptation (LoRA) has emerged as a widely adopted parameter-efficient fine-tuning method in deep transfer learning, due to its reduced number of trainable parameters and lower memory requirements enabled by Burer-Monteiro factorization on adaptation matrices. However, classical LoRA training methods treat the low-rank factor matrices individually and optimize them using standard gradient-based algorithms. Such decoupled optimization schemes are theoretically and empirically suboptimal, as they fail to fully exploit the intrinsic structure of the LoRA parameterization. In this work, we propose a novel continuous-time optimization dynamic for LoRA factor matrices in the form of an ordinary differential equation (ODE) that emulates the gradient flow of full fine-tuning on the balanced manifold. We term this approach ODELoRA. To faithfully track the trajectories of ODELoRA, we adopt well-established and theoretically grounded time-discretization schemes, including Euler and Runge--Kutta methods. Our framework provides a unified ODE-based perspective for understanding and designing LoRA training algorithms. We establish linear convergence of the proposed method under strongly convex objectives for certain discretization schemes under mild conditions, and further extend our analysis to the matrix sensing setting. Moreover, we show that ODELoRA achieves stable feature learning, a property that is crucial for training deep neural networks at different scales of problem dimensionality. Empirical results on matrix sensing tasks confirm the derived linear convergence behavior, and experiments on training physics-informed neural networks further demonstrate the superiority of ODELoRA over existing baselines, especially in the training stability.