Back to list
明瞭な演算子が、現代のシーケンスおよび言語モデリングに用いられるニューラルネットワークにおけるエンドツーエンド計算を解説する
An explicit operator explains end-to-end computation in the modern neural networks used for sequence and language modeling
Translated: 2026/4/24 20:05:47
Japanese Translation
arXiv:2604.20595v1 Announce Type: cross
要旨:我々は、データにおける長距離依存性を捉えるための最先端アーキテクチャである状態空間モデル(State Space Models)と、正確に解ける非線形発振子ネットワークとの間に数学的な対応関係を示しました。この一般的な対応関係の具体的な例として、構造状態空間シーケンスモデル(S4)の対角線時間不変の実装を分析しました。この対応関係は、S4D(S4 の特定の実装)を、最近の入力が一次元的空间レイアウトを伝播する活動の波としてエンコードするリング型ネットワークトポロジーに埋め込みます。次に、S4D の全ファーストパスに対して exact operator expression を導出し、その完全な入力出力マップの解析的記述を得ました。この式は、系における非線形デコーダーが、現実世界のシーケンスを分類可能にする情報を持つこれらの波との相互作用を誘発することを示唆しています。これらの結果は、現代的な SSM アーキテクチャ全体に一般化し、明確な物理的解釈を持つ exact mathematical description を許容することを示しています。これらの知見は、非線形発振子ネットワークの観点から、これらのシステムに対する新しいレベルの解釈可能性を可能にします。
Original Content
arXiv:2604.20595v1 Announce Type: cross
Abstract: We establish a mathematical correspondence between state space models, a state-of-the-art architecture for capturing long-range dependencies in data, and an exactly solvable nonlinear oscillator network. As a specific example of this general correspondence, we analyze the diagonal linear time-invariant implementation of the Structured State Space Sequence model (S4). The correspondence embeds S4D, a specific implementation of S4, into a ring network topology, in which recent inputs are encoded, as waves of activity traveling over the one-dimensional spatial layout of the network. We then derive an exact operator expression for the full forward pass of S4D, yielding an analytical characterization of its complete input-output map. This expression reveals that the nonlinear decoder in the system induces interactions between these information-carrying waves that enable classifying real-world sequences. These results generalize across modern SSM architectures, and show that they admit an exact mathematical description with a clear physical interpretation. These insights enable a new level of interpretability for these systems in terms of nonlinear oscillator networks.