Back to list
Overparameterized シーシャルニューラルネットワークにおける初期化依存かつ非空の一般化境界への道
Towards Initialization-dependent and Non-vacuous Generalization Bounds for Overparameterized Shallow Neural Networks
Translated: 2026/4/24 20:10:40
Japanese Translation
arXiv:2604.00505v3 発表 タイプ:置換
サマリー:過剰パラメータ化されたニューラルネットワークは、パラメータ数が学習サンプル数を超えていても優れた一般化挙動を示すという、良性質の過学習特性を示すことがしばしばあります。良性質の過学習を説明するための有望な方向として、経験的な観察からこの距離が本来のノルムと比べてしばしば著しく小さいことが示唆されており、一般化を初期化からの距離のノルムに関連付けるアプローチがありますが、既存の初期化依存の複雑性解析はフロッベニウスノルムを用いて初期化からの距離を測り、過剰パラメータ化されたモデルに対して実際の場ではしばしば無意味な境界を導出することがあります。この論文では、一般の Lipschitz 活性化関数を有する過剰パラメータ化されたシーシャルニューラルネットワークの初期化依存の複雑性境界を確立します。我们的境界は初期化からの距離の経路ノルムに依存しており、これは初期化依存の制約を処理する課題に対応するために導入した新しい剥離技術を介して導出されました。我々はまた、定数倍の誤差を除けば非常にタイトな下限も確立しました。最後に、我々は経験的な比較を行い、我々の一般化解析が過剰パラメータ化されたネットワークに対して非意味な境界を導出することがあることを示しました。
Original Content
arXiv:2604.00505v3 Announce Type: replace
Abstract: Overparameterized neural networks often show a benign overfitting property in the sense of achieving excellent generalization behavior despite the number of parameters exceeding the number of training examples. A promising direction to explain benign overfitting is to relate generalization to the norm of distance from initialization, motivated by the empirical observations that this distance is often significantly smaller than the norm itself. However, the existing initialization-dependent complexity analyses measure the distance from initialization by the Frobenius norm, and often imply vacuous bounds in practice for overparamterized models. In this paper, we develop initialization-dependent complexity bounds for shallow neural networks with general Lipschitz activation functions. Our bounds depend on the path-norm of the distance from initialization, which are derived by introducing a new peeling technique to handle the challenge along with the initialization-dependent constraint. We also develop a lower bound tight up to a constant factor. Finally, we conduct empirical comparisons and show that our generalization analysis implies non-vacuous bounds for overparameterized networks.