Back to list
Transformers の熱力学的同相性:注意力ダイナミクスへのラグランジアンアプローチ
Thermodynamic Isomorphism of Transformers: A Lagrangian Approach to Attention Dynamics
Translated: 2026/3/15 15:03:20
Japanese Translation
arXiv:2602.08216v1 Announce Type: new
要約: Transformer アーキテクチャーは人工知能を革命化しましたが、その下敷きのメカニズムは依然として経験則的にであり、統一的な物理理論に欠けています。この研究では、我々は最小作用の原理によって支配される物理システムとして注意力機構を取り扱い、アルゴリズム的な最適化から脱却した情報ダイナミクスの第一原理の枠組みを提案します。Fisher 情報度計を用いて情報状態を黎曼多様体にマッピングすることで、我々は知能ラグランジアンを導出しました。我々は、softmax 関数がヘルムホルツの自由エネルギーを最小化し、唯一の熱力学的平衡状態であるとして、情報ガスを示しました。さらに、クエリ - キー相互作用を外場と固有の双極子モーメント間の電磁動的結合として特定しました。この理論は、推論(機械的仕事)と学習(化学的進化)を統合する情報熱力学の第一法則を確立します。また、スケーリング則や grokking というエメレント現象を、比熱の発散で特徴付けられる位相転移として説明します。最後に、注意力多様体における回転対称性の破れが質量を持つ Goldstone ボソンを生成することを議論し、これは Rotary Positional Embeddings (RoPE) に場理論的な視点を提供します。本研究は統計物理学と深層学習をつなぎ、物理に基づく知能的一般理論の基礎を奠定します。
Original Content
arXiv:2602.08216v1 Announce Type: new
Abstract: Although the Transformer architecture has revolutionized artificial intelligence, its underlying mechanisms remain largely heuristic and lack a unified physical theory. In this work, we propose a first-principles framework for information dynamics, treating the attention mechanism as a physical system governed by the principle of least action rather than as an algorithmic optimization. By mapping information states to a Riemannian manifold with the Fisher information metric, we derive the intelligence Lagrangian. We show that the softmax function corresponds to the unique thermodynamic equilibrium state that minimizes the Helmholtz free energy of the information gas. In addition, we identify the query-key interaction as an electrodynamic coupling between an external field and an intrinsic dipole moment. This theory establishes the first law of information thermodynamics, unifying inference (mechanical work) and learning (chemical evolution). It also explains emergent phenomena, such as scaling laws and grokking, as phase transitions characterized by the divergence of specific heat. Finally, we discuss how rotational symmetry breaking in the attention manifold generates massless Goldstone bosons, providing a field-theoretic perspective on rotary positional embeddings (RoPE). Our work connects Statistical Physics and Deep Learning, laying the groundwork for a general theory of physics-based intelligence.