Back to list
arxiv_cs_ai 2026年4月24日

クロスエントロピーは荷重を担う:K-Way エナジープローブの双方向予測符号化における事前登録されたスコープテスト

Cross-Entropy Is Load-Bearing: A Pre-Registered Scope Test of the K-Way Energy Probe on Bidirectional Predictive Coding

Translated: 2026/4/24 20:26:02
cross-entropypredictive-codingmachine-learningdeep-learningneuroscience

Japanese Translation

Cacioli (2026) は、標準的な差別主義的予測符号化ネットワークにおける K-Way エナジープローブが、約 log-ソフトマックスマージンの単調関数として減少することを示した。この減少は、クロスエントロピー(CE)が出力で、および実質的な前向き推論ダイナミクスが存在するという 5 つの仮定に基づいている。この事前登録された研究は、この減少が CE の削除に対する感受性をテストするために、2 つの条件を使用する:CE を MSE(均方誤差)に置き換えてトレーニングした標準的な PC、および双方向 PC(bPC; Oliviers, Tang & Bogacz, 2025)。CIFAR-10 の 10 のシードと一致する 2.1M パラメータのバックボーンを用いて、3 つの結果を得た。負の結果は標準的な PC 上で再現された:プローブはソフトマックス以下(Δ = -0.082, p < 10^-6)。bPC において、プローブはすべての 10 のシードでソフトマックスを超えた(Δ = +0.008, p = 0.000027)、ただし、事前登録された操作チェックは、bPC がこのスケールにおいて標準的な PC に比べて物質的に大きい潜在移動を生み出さないことを示した(比率 1.6、閾値 10)。CE のみを除去せずに推論ダイナミクスを変化させない場合、プローブとソフトマックスのギャップは半分になる(Δ_MSE = -0.037 vs Δ_stdPC = -0.082)。CE は、このスケールにおける分解の主要な経験的に荷重を担う要素である。CE トレーニングは、出力ログリットノルムを MSE または bPC トレーニングに比べて約 15 倍大きくする。事後の温度スケーリングアブレーションでプローブとソフトマックスのギャップを 2 つの要素に分解すると、約 66% は温度再スケーリングで除去可能であるログリットスケール効果によるものであると帰属され、約 34% は CE トレーニングされた表現在スケール不変なランク有利を反映している。我々は「メタ認知」を操作上に、タイプ-1 の正しさに関するタイプ-2 の識別を意味し、人間のような内省的なアクセスを暗示する意図を排除して使用している。

Original Content

arXiv:2604.21286v1 Announce Type: cross Abstract: Cacioli (2026) showed that the K-way energy probe on standard discriminative predictive coding networks reduces approximately to a monotone function of the log-softmax margin. The reduction rests on five assumptions, including cross-entropy (CE) at the output and effectively feedforward inference dynamics. This pre-registered study tests the reduction's sensitivity to CE removal using two conditions: standard PC trained with MSE instead of CE, and bidirectional PC (bPC; Oliviers, Tang & Bogacz, 2025). Across 10 seeds on CIFAR-10 with a matched 2.1M-parameter backbone, we find three results. The negative result replicates on standard PC: the probe sits below softmax (Delta = -0.082, p < 10^-6). On bPC the probe exceeds softmax across all 10 seeds (Delta = +0.008, p = 0.000027), though a pre-registered manipulation check shows that bPC does not produce materially greater latent movement than standard PC at this scale (ratio 1.6, threshold 10). Removing CE alone without changing inference dynamics halves the probe-softmax gap (Delta_MSE = -0.037 vs Delta_stdPC = -0.082). CE is a major empirically load-bearing component of the decomposition at this scale. CE training produces output logit norms approximately 15x larger than MSE or bPC training. A post-hoc temperature scaling ablation decomposes the probe-softmax gap into two components: approximately 66% is attributable to logit-scale effects removable by temperature rescaling, and approximately 34% reflects a scale-invariant ranking advantage of CE-trained representations. We use "metacognitive" operationally to denote Type-2 discrimination of a readout over its own Type-1 correctness, not to imply human-like introspective access.