Back to list
arxiv_cs_lg 2026年4月24日

安定性の境縁の起源

The Origin of Edge of Stability

Translated: 2026/4/24 19:59:01
machine-learningneural-networksgradient-descentdeep-learning-theoryconvex-optimization

Japanese Translation

arXiv:2604.20446v1 発表タイプ: 新作 要旨: ニューラルネットワークに対する全バッチ勾配降下法は、最大ヒessian 固有値を学習率 $\eta$ の $2/\eta$ 閾値に追いやります。この現象は「安定性の境縁」であり、統一的な説明を与えにくかった:既存の説明は境縁近傍での自己調整は確立されているものの、任意の初期化からなぜ軌跡が $2/\eta$ へと追い込まれるかという理由を説明していない。本稿では、連続するイテレーションペアに対して定義される関数を導入し、その係数は勾配降下更新によってユニークに固定される「境縁結合」を導入する。この境縁結合の臨界性条件の差分が、安定性境界が $2/\eta$ となるステップ再帰式を生み出し、二階展開は縮退和が曲率を $2/\eta$ へと追いやると示す損失変化の公式を生み出す。両方の公式は異なるヒessian 平均に関与するが、平均値の定理がそれぞれをステップセグメント内の真のヒessian 点に局所化し、ヒessian 固有値をギャップなしに正確に追いやります。境縁結合の両勾配をゼロとすることで定常点と二周期軌道が分類され、定常点近傍では問題は半振幅だけの関数に還元され、どの方向が二周期軌道を支持し、臨界学習率のどの側に現れるかが決定される。

Original Content

arXiv:2604.20446v1 Announce Type: new Abstract: Full-batch gradient descent on neural networks drives the largest Hessian eigenvalue to the threshold $2/\eta$, where $\eta$ is the learning rate. This phenomenon, the Edge of Stability, has resisted a unified explanation: existing accounts establish self-regulation near the edge but do not explain why the trajectory is forced toward $2/\eta$ from arbitrary initialization. We introduce the edge coupling, a functional on consecutive iterate pairs whose coefficient is uniquely fixed by the gradient-descent update. Differencing its criticality condition yields a step recurrence with stability boundary $2/\eta$, and a second-order expansion yields a loss-change formula whose telescoping sum forces curvature toward $2/\eta$. The two formulas involve different Hessian averages, but the mean value theorem localizes each to the true Hessian at an interior point of the step segment, yielding exact forcing of the Hessian eigenvalue with no gap. Setting both gradients of the edge coupling to zero classifies fixed points and period-two orbits; near a fixed point, the problem reduces to a function of the half-amplitude alone, which determines which directions support period-two orbits and on which side of the critical learning rate they appear.