Back to list
Provably robust learning of regression neural networks using $eta$-divergences
Provably robust learning of regression neural networks using $\beta$-divergences
Translated: 2026/3/15 8:10:10
Japanese Translation
arXiv:2602.08933v1 Announce Type: cross
Regression neural networks (NNs) は一般的に、均方予測誤差の最小化によってトレーニングされます。この手法は外れ値やデータ汚染に対して非常に敏感です。既存の回帰ニューラルネットワークの耐障害トレーニング手法は範囲が限定され、主に経験的検証に頼っており、理論的な保証を部分的に提供するものは少数に過ぎません。
本稿では、$eta$-発散(密度のべき発散とも知られる)に基づいた新しい耐障害学習フレームワークである rRNet を提案します。これは、非滑らかな活性化関数や誤り密度を持つモデルを含む広いクラスの変数に適用され、古典的な最大尤度学習を特殊なケースとして復元します。rRNet は交代最適化スキームによって実装され、適当な条件の下における平衡点への収束保証を確立しました。(局所的な) 耐障害性は、パラメータ推定値および得られる rRNet 予測者の影響関数を通じた理論的特徴付けを適用し、誤り密度に適したチューニングパラメータ $eta$ の選択において有界であると示されました。また、rRNet は仮定されたモデルに対してすべての $eta \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\<1]$ で最適な 50% の漸近的に破綻点(breakdown point)を獲得することを証明し、既存の NN 学習手法において広く欠如している強力なグローバル耐障害保証を提供します。 our 理論的結果は、ノイズ観測を伴う推論タスクにおける既存のアプローチに対する rRNet の実用的優位性を示唆するシミュレーション実験および実データ分析で補強されています。
Original Content
arXiv:2602.08933v1 Announce Type: cross
Abstract: Regression neural networks (NNs) are most commonly trained by minimizing the mean squared prediction error, which is highly sensitive to outliers and data contamination. Existing robust training methods for regression NNs are often limited in scope and rely primarily on empirical validation, with only a few offering partial theoretical guarantees. In this paper, we propose a new robust learning framework for regression NNs based on the $\beta$-divergence (also known as the density power divergence) which we call `rRNet'. It applies to a broad class of regression NNs, including models with non-smooth activation functions and error densities, and recovers the classical maximum likelihood learning as a special case. The rRNet is implemented via an alternating optimization scheme, for which we establish convergence guarantees to stationary points under mild, verifiable conditions. The (local) robustness of rRNet is theoretically characterized through the influence functions of both the parameter estimates and the resulting rRNet predictor, which are shown to be bounded for suitable choices of the tuning parameter $\beta$, depending on the error density. We further prove that rRNet attains the optimal 50\% asymptotic breakdown point at the assumed model for all $\beta\in(0, 1]$, providing a strong global robustness guarantee that is largely absent for existing NN learning methods. Our theoretical results are complemented by simulation experiments and real-data analyses, illustrating practical advantages of rRNet over existing approaches in both function approximation problems and prediction tasks with noisy observations.