Back to list
arxiv_cs_lg 2026年4月24日

明瞭なドロップアウト:トランスフォーマーアーキテクチャのための確定的正規化

Explicit Dropout: Deterministic Regularization for Transformer Architectures

Translated: 2026/4/24 19:59:13
explicit-dropouttransformer-architecturesdeterministic-regularizationdeep-learningarxiv

Japanese Translation

arXiv:2604.20505v1 Announce Type: new 要旨:ドロップアウトは深層学習において広く用いられている正規化手法であるが、その効果は通常、確率的なマスキングを通じて実現されているに過ぎず、明示的な最適化目標には含まれていない。本稿では、ドロップアウトを訓練損失に直接組み込まれた加法的正則化項として記述する確定的な形式を提案する。この枠組みでは、アテンションのクエリ、キー、バリュー、およびフィードフォワードコンポーネントを対象とし、それぞれ独立して制御可能な強さを持つ明示的な正則化項を導出する。この形式は確率的擾乱への依存を排除し、正則化の強さに対してより明確かつ粒度の細かい制御を提供する。画像分類、時間的動作検出、音声分類にわたる実験では、明瞭なドロップアウトは従来の暗黙的な手法と同じ、あるいはそれを凌駕する性能を示し、アテンション層とフィードフォワードネットワーク層に適用する際に一貫して改善が見られる。 Ablation studies(アブラッション研究)では、正則化係数とドロップアウト率を通じて安定した性能と制御可能な正則化が示された。全体として、明瞭なドロップアウトは確率的正規化に対する実用的かつ解釈可能な代替策であり、多様なタスクのアーキテクチャ柔軟性を保ちながら機能する。

Original Content

arXiv:2604.20505v1 Announce Type: new Abstract: Dropout is a widely used regularization technique in deep learning, but its effects are typically realized through stochastic masking rather than explicit optimization objectives. We propose a deterministic formulation that expresses dropout as an additive regularizer directly incorporated into the training loss. The framework derives explicit regularization terms for Transformer architectures, covering attention query, key, value, and feed-forward components with independently controllable strengths. This formulation removes reliance on stochastic perturbations while providing clearer and fine-grained control over regularization strength. Experiments across image classification, temporal action detection, and audio classification show that explicit dropout matches or outperforms conventional implicit methods, with consistent gains when applied to attention and feed-forward network layers. Ablation studies demonstrate stable performance and controllable regularization through regularization coefficients and dropout rates. Overall, explicit dropout offers a practical and interpretable alternative to stochastic regularization while maintaining architectural flexibility across diverse tasks.