Back to list
Absorber LLM: Causal Synchronization を活用したテスト時の学習
Absorber LLM: Harnessing Causal Synchronization for Test-Time Training
Translated: 2026/4/24 20:21:27
Japanese Translation
arXiv:2604.20915v1 Announce Type: cross
要約:Transformer は自己注意によってシーケンス長とともに計算コストが高くなり、長期のストリームにおける推論をメモリの消費によって禁止しています。Constant-memory の代替方法である RNN と SSM は、履歴を固定されたサイズの状態に圧縮することで、長期的な依存関係を失い、パラメータにコンテキストを暗記する手法であるテスト時の学習(TTT)は、トークンレベルの投影に対する過学習に陥り、事前学習された LLM のコンテキストの因果効果を保つことができません。私達は、Absorber LLM を提案し、長期コンテキストの保持を自己教師付け的な因果同期として形式化します。歴史的コンテキストをパラメータに吸い込んだ後、コンテキストのないモデルがフルコンテキストの元のモデルと将来の生成において一致する必要があります。我々は、内部行為の同期によって、更新されたモデルを元のモデルと同期させ、コンテキストの吸収と一般化を保証することでこの目的を最適化します。長期コンテキストおよびストリームベンチマークにおける実験は、Absorber LLM が推論メモリの削減を行い、従来のパラメータをメモリとするベースラインに対して精度を向上させたと示しています。
Original Content
arXiv:2604.20915v1 Announce Type: cross
Abstract: Transformers suffer from a high computational cost that grows with sequence length for self-attention, making inference in long streams prohibited by memory consumption. Constant-memory alternatives such as RNNs and SSMs compress history into states with fixed size and thus lose long-tail dependencies, while methods that memorize contexts into parameters, such as Test-Time Training (TTT), are prone to overfitting token-level projection and fail to preserve the causal effect of context in pretrained LLMs. We propose Absorber LLM, which formulates long-context retention as a self-supervised causal synchronization: after absorbing historical contexts into parameters, a contextless model should match the original model with full context on future generations. We optimize this objective by synchronizing internal behaviors of the updated model with the original one, ensuring context absorption and generalization. Experiments on long-context and streaming benchmarks show that Absorber LLM reduces inference memory and improves accuracy over prior parameter-as-memory baselines.