Back to list
Truncated Kernel Stochastic Gradient Descent with General Losses and Spherical Radial Basis Functions
Truncated Kernel Stochastic Gradient Descent with General Losses and Spherical Radial Basis Functions
Translated: 2026/4/20 11:04:02
Japanese Translation
arXiv:2510.04237v5 発表タイプ:置換
要約: この論文では、一般的な損失関数を扱う大規模な監視学習向けの新しい核随机勾配降下(SGD)アルゴリズムを提案します。従来の核 SGD に compared して、我々のアルゴリズムは画期的な正則化戦略を通じて効率性とスケーラビリティを向上させています。球状 Radial Basis Function の無限級数展開を利用することで、この戦略は確率的勾配を有限次元の仮説空間へ投影し、バイアス - 分散のトレードオフに応じて適応的にスケールさせることで、一般化性能を強化します。核誘発共分散演算子のスpectrum 構造の新しい推定に基づき、最適化と一般化解析を統合する解析的枠組みを開発しました。我々は、最後に残る反復値および接頭辞平均が minimax 最速収束率で収束することを証明し、さらに再生核ヒルベルト空間における最適強収束性を確立しました。我々の枠組みは最小二乗、Huber、および logit などの広範な古典的損失関数を対応しています。さらに、我々の提案アルゴリズムは、線形 SGD からの座標ごとの更新を取り入れることで計算複雑性を大幅に削減し、核 SGD 特有の高コストの両対数演算を回避し、ストリーミングデータの効率的な処理を可能にしました。最後に、広範な数値実験は我々のアプローチの効率性を示しました。
Original Content
arXiv:2510.04237v5 Announce Type: replace
Abstract: In this paper, we propose a novel kernel stochastic gradient descent (SGD) algorithm for large-scale supervised learning with general losses. Compared to traditional kernel SGD, our algorithm improves efficiency and scalability through an innovative regularization strategy. By leveraging the infinite series expansion of spherical radial basis functions, this strategy projects the stochastic gradient onto a finite-dimensional hypothesis space, which is adaptively scaled according to the bias-variance trade-off, thereby enhancing generalization performance. Based on a new estimation of the spectral structure of the kernel-induced covariance operator, we develop an analytical framework that unifies optimization and generalization analyses. We prove that both the last iterate and the suffix average converge at minimax-optimal rates, and we further establish optimal strong convergence in the reproducing kernel Hilbert space. Our framework accommodates a broad class of classical loss functions, including least-squares, Huber, and logistic losses. Moreover, the proposed algorithm significantly reduces computational complexity and achieves optimal storage complexity by incorporating coordinate-wise updates from linear SGD, thereby avoiding the costly pairwise operations typical of kernel SGD and enabling efficient processing of streaming data. Finally, extensive numerical experiments demonstrate the efficiency of our approach.