Back to list
arxiv_cs_lg 2026年2月10日

体制変化仮説:ニューラルネットワーク訓練における非結合動的性の基礎

Regime Change Hypothesis: Foundations for Decoupled Dynamics in Neural Network Training

Translated: 2026/3/15 16:05:32
neural-network-trainingdecoupled-dynamicsrelu-activationoptimization-dynamicspiecewise-linear

Japanese Translation

arXiv:2602.08333v1 発表型:新しい 要約:ディープラーニングネットワーク(DNN)の経験的成功にもかかわらず、それらの内部の訓練のダイナミクスは記述が困難である。ReLU ベースのモデルにおいて、入力によって誘発される活性化パターンは、ネットワークが線形的に振る舞う部分線形領域を決定する。この幾何学的構造を動機づけて、訓練が 2 つの時間スケールを示すか否かを調査した:早期段階は活性化パターンへの顕著な変化を伴い、後半段階は重量更新が主に比較的安定した活性化領域内でモデルを精緻化する過程である。まず、局所的な安定性特性を証明した:パラメータと入力の測度ゼロの集合の外で、十分小さなパラメータ摂動は固定された入力の活性化パターンを保持し、活性領域内で局所的な線形的振る舞いを意味する。次に、固定された検証サブセットを用いて、活性化パターンが ReLU フォーワード(MLP/FFN)サブモジュールに記録される、フュル・コネクテッドおよびコンボリューション型アーキテクチャ、および Transformer ベースのモデルについて、反復ごとの重量と活性化パターンの変化を追跡した。評価された設定では、活性パターンの変化は重量更新の規模よりも 3 倍早期に減衰しており、後半の訓練段階では比較的安定した活性の領域内で進行することが示された。これらの発見は、訓練のダイナミクスを監視するための具体的でアーキテクチャ非特異的なツールを提供し、部分線形ネットワークのための非結合最適化戦略のさらなる研究を促した。再現性のために、コードと実験の構成は採用時に公開される。

Original Content

arXiv:2602.08333v1 Announce Type: new Abstract: Despite the empirical success of DNN, their internal training dynamics remain difficult to characterize. In ReLU-based models, the activation pattern induced by a given input determines the piecewise-linear region in which the network behaves affinely. Motivated by this geometry, we investigate whether training exhibits a two-timescale behavior: an early stage with substantial changes in activation patterns and a later stage where weight updates predominantly refine the model within largely stable activation regimes. We first prove a local stability property: outside measure-zero sets of parameters and inputs, sufficiently small parameter perturbations preserve the activation pattern of a fixed input, implying locally affine behavior within activation regions. We then empirically track per-iteration changes in weights and activation patterns across fully-connected and convolutional architectures, as well as Transformer-based models, where activation patterns are recorded in the ReLU feed-forward (MLP/FFN) submodules, using fixed validation subsets. Across the evaluated settings, activation-pattern changes decay 3 times earlier than weight-update magnitudes, showing that late-stage training often proceeds within relatively stable activation regimes. These findings provide a concrete, architecture-agnostic instrument for monitoring training dynamics and motivate further study of decoupled optimization strategies for piecewise-linear networks. For reproducibility, code and experiment configurations will be released upon acceptance.