Back to list
Deep Networks に対する幾何的階層近似速度 (Geometric Layer-wise Approximation Rates for Deep Networks)
Geometric Layer-wise Approximation Rates for Deep Networks
Translated: 2026/4/24 19:57:40
Japanese Translation
arXiv:2604.20219v1 Announce Type: new
Abstract: 深層ニューラルネットワークの成功において深さは広く中心的存在と見なされているが、標準的なニューラルネットワークの近似理論は通常、最終出力に対する保証のみを提供し、中間層の役割については大まかに不明確である。我々は、このギャップに対処するために、深さが明確にスケール依存する解釈を受け入れる定量化枠組みを開発した。具体的には、幅 $2dN+d+2$ で任意の指定された有限深さを備えた単一の共有ミックスアクティベーションアーキテクチャを設計し、各中間読み出し $\ ext{\\Phi\\}_\ell$ が目標関数 $f$ 自体の近似器となっているようにした。$f\in L^p([0,1]^d)$ で $p\in [1,\infty)$ のとき、全ての $\ell$ に対して $\text{\\Phi\\}_\ell$ の近似誤差は、幾何学的スケール $N^{-\ell}$ における $L^p$ モーダリティ連続性の $(2d+1)$ 倍によって制御される。$f$ が 1-Lipschitz の場合、この推定値は幾何学的速度 $(2d+1)N^{-\ell}$ に還元される。我々のネットワーク設計は、多重級深層学習に着想を得ており、ここでは深さは進化的精細化メカニズムとして機能する:新しい補正はより細かなスケールにある残余情報を標的とし、以前の補正項は後の読み出しの一部として残され、前回のネットワークを再設計せずに適応的な精細化をサポートするネストされたアーキテクチャを生成する。
Original Content
arXiv:2604.20219v1 Announce Type: new
Abstract: Depth is widely viewed as a central contributor to the success of deep neural networks, whereas standard neural network approximation theory typically provides guarantees only for the final output and leaves the role of intermediate layers largely unclear. We address this gap by developing a quantitative framework in which depth admits a precise scale-dependent interpretation. Specifically, we design a single shared mixed-activation architecture of fixed width $2dN+d+2$ and any prescribed finite depth such that each intermediate readout $\Phi_\ell$ is itself an approximant to the target function $f$. For $f\in L^p([0,1]^d)$ with $p\in [1,\infty)$, the approximation error of $\Phi_\ell$ is controlled by $(2d+1)$ times the $L^p$ modulus of continuity at the geometric scale $N^{-\ell}$ for all $\ell$. The estimate reduces to the geometric rate $(2d+1)N^{-\ell}$ if $f$ is $1$-Lipschitz. Our network design is inspired by multigrade deep learning, where depth serves as a progressive refinement mechanism: each new correction targets residual information at a finer scale while the earlier correction terms remain part of the later readouts, yielding a nested architecture that supports adaptive refinement without redesigning the preceding network.