Back to list
LookSharp: Transformer のアテンション機構における中間分布のエントロピー最小化を用いたテスト時適応
LookSharp: Attention Entropy Minimization for Test-Time Adaptation
Translated: 2026/3/15 16:04:53
Japanese Translation
arXiv:2511.18925v3 Announce Type: replace
要約:テスト時適応(TTA)は、分布のシフトに対して誤差を削減するために推論中にモデルを更新する手法である。出力分布に対するエントロピー最小化は TTA の損失関数として実効性を示してきたが、ここではトランスフォーマーのアテンション機構で計算される中間分布を用いることを研究する。最終層のクラスター(CLS)からパッチ(patch)へのアテンションのエントロピーを最小化する LookSharp を提案し、モデルがシフトしたデータに対して焦点を当てたままのアテンションを維持することを促す。アテンションエントロピー最小化が ImageNet-C におけるロバスト性を改善することを示し、出力エントロピー最小化と補完的であることを明らかにし、クリーンデータでの性能も維持した。
Original Content
arXiv:2511.18925v3 Announce Type: replace
Abstract: Test-time adaptation (TTA) updates models during inference to reduce error on distribution shifts. While entropy minimization over the output distribution has proven effective as a TTA loss, we study using the intermediate distributions computed by transformers in the attention mechanism. We propose LookSharp, which minimizes the entropy of CLS-to-patch attention in the final layer as a novel TTA objective, encouraging the model to maintain focused attention on shifted data. We demonstrate that attention entropy minimization improves robustness on ImageNet-C. We also show that it is complementary to output entropy minimization and maintains performance on clean data.