Back to list
強化学習には必要な幾何学的盲点がある:理論、帰結と最小限の修復
Supervised Learning Has a Necessary Geometric Blind Spot: Theory, Consequences, and Minimal Repair
Translated: 2026/4/24 19:48:32
Japanese Translation
arXiv:2604.21395v1 Announce Type: cross
Abstract: 私たちは,経験的リスク最小化(ERM)が学習した表現に対して必要な幾何学的制約を課すことを証明した:任意の学習器が監督学習損失を最小化するには、訓練データにおいてラベルと相関している方向については、テスト時において害になる方向でも非ゼロのヤコビアン感度を保つ必要がある。これは既存手法の偶発的な失敗ではなく、監督学習目的関数そのものの数学的な帰結である。これを『強化学習の幾何学的盲点』(定理 1)と呼び、それが正味の評価基準、アーキテクチャ、およびデータセット規模を超えて成り立つことを示した。
この単一の定理は、以前は個別に扱われていた非強靭な予測特性、テクスチャーバイアス、破損脆弱性、および強靭性と精度のトレードオフという 4 つの従来の実験的な研究ラインを統合する。この枠組みにおいて、敵対的脆弱性は強化学習幾何学に関するより広範な構造的事実の帰結の一つである。
私たちは、この定理の有界量を直接計測する診断指標であるトレイectorri デビエーションインデックス(TDI)を導入し、なぜ一般的な代替案が鍵となる失敗モードを見逃すのかを示した。PGD 敵対的訓練はヤコビアンフロッベンヌス 2.91 に達しつつも、クリーン入力幾何学で最も悪い値(TDI 1.336)を示し、PMH は TDI 0.904 を達成した。TDI は isotropic path-length distortion を計測するためだけであるこの分離を検出する唯一の指標であり、これは定理 1 によって有界される正確な量である。
7 つの視覚タスク、BERT/SST-2、および CLIP、DINO、SAM に使用される ImageNet ViT-B/16 ベースバックにおいて、盲点は計測可能かつ修復可能である。基礎モデル規模では存在し、言語モデルのサイズを横断して単調に悪化(66M から 340M まで、盲点比が 0.860 から 0.765 から 0.742 に)、タスク固有の ERM 微調整によって増幅される(+54%)の一方で、1 つの追加訓練項を加えるだけで PMH はそれを 11 倍修復する。その高斯形はプロポジショント 5 で証明されるように、これはエンコーダーのヤコビアンを一律に罰する唯一の乱動法である。
Original Content
arXiv:2604.21395v1 Announce Type: cross
Abstract: We prove that empirical risk minimisation (ERM) imposes a necessary geometric constraint on learned representations: any encoder that minimises supervised loss must retain non-zero Jacobian sensitivity in directions that are label-correlated in training data but nuisance at test time. This is not a contingent failure of current methods; it is a mathematical consequence of the supervised objective itself. We call this the geometric blind spot of supervised learning (Theorem 1), and show it holds across proper scoring rules, architectures, and dataset sizes.
This single theorem unifies four lines of prior empirical work that were previously treated separately: non-robust predictive features, texture bias, corruption fragility, and the robustness-accuracy tradeoff. In this framing, adversarial vulnerability is one consequence of a broader structural fact about supervised learning geometry.
We introduce Trajectory Deviation Index (TDI), a diagnostic that measures the theorem's bounded quantity directly, and show why common alternatives miss the key failure mode. PGD adversarial training reaches Jacobian Frobenius 2.91 yet has the worst clean-input geometry (TDI 1.336), while PMH achieves TDI 0.904. TDI is the only metric that detects this dissociation because it measures isotropic path-length distortion -- the exact quantity Theorem 1 bounds.
Across seven vision tasks, BERT/SST-2, and ImageNet ViT-B/16 backbones used by CLIP, DINO, and SAM, the blind spot is measurable and repairable. It is present at foundation-model scale, worsens monotonically across language-model sizes (blind-spot ratio 0.860 to 0.765 to 0.742 from 66M to 340M), and is amplified by task-specific ERM fine-tuning (+54%), while PMH repairs it by 11x with one additional training term whose Gaussian form Proposition 5 proves is the unique perturbation law that uniformly penalises the encoder Jacobian.