Back to list
Optimizers に対する頑健なスケールリング則への道
Towards Robust Scaling Laws for Optimizers
Translated: 2026/3/15 14:47:15
Japanese Translation
arXiv:2602.07712v1 Announce Type: new
摘要: 大規模言語モデル (LLM) の事前学習の品質は、計算リソースの予算や最適化アルゴリズムの選択などの多様な要因に依存します。経験則的なスケールリング則は、モデルサイズやトレーニングデータが増加する際の損失を予測するために広く使用されていますが、既存のほぼすべての研究は最適化器(一般的に AdamW)を固定しています。同時に、より高速かつ安定した収束を約束する新しい世代の最適化器(例: Muon, Shampoo, SOAP)が台頭しつつあり、しかしそれらとモデルサイズ・データスケールに関する関係はまだ十分に理解されていません。本研究では、異なる最適化器に対してスケールリング則を分析します。実証的に、私達は以下を明確に示します:1) 各最適化器に個別の Chinchilla スタイルのスケールリング則を設定することは、条件数が悪く、パラメータ間に強い相関を持つため不適切である;2) 代わりに、直接最適化器間の比較を可能にする共有べき乗則指数と最適化器固有の再スケール因子を持つ、より頑健な則を提案;3) 凸の二次目標関数という代理タスクのための勾配降下法に関する理論的分析を提供し、Chinchilla スタイルのスケールリング則は損失を不可避誤差、近似誤差、最適化誤差への分解という結果として自然に現れることを示します。
Original Content
arXiv:2602.07712v1 Announce Type: new
Abstract: The quality of Large Language Model (LLM) pretraining depends on multiple factors, including the compute budget and the choice of optimization algorithm. Empirical scaling laws are widely used to predict loss as model size and training data grow, however, almost all existing studies fix the optimizer (typically AdamW). At the same time, a new generation of optimizers (e.g., Muon, Shampoo, SOAP) promises faster and more stable convergence, but their relationship with model and data scaling is not yet well understood. In this work, we study scaling laws across different optimizers. Empirically, we show that 1) separate Chinchilla-style scaling laws for each optimizer are ill-conditioned and have highly correlated parameters. Instead, 2) we propose a more robust law with shared power-law exponents and optimizer-specific rescaling factors, which enable direct comparison between optimizers. Finally, 3) we provide a theoretical analysis of gradient-based methods for the proxy task of a convex quadratic objective, demonstrating that Chinchilla-style scaling laws emerge naturally as a result of loss decomposition into irreducible, approximation, and optimization errors.