Back to list
arxiv_cs_lg 2026年2月10日

アトラクター・パッチネットワーク:ロウランクなルーテッドパッチ専門家が引き起こす大規模忘却の低減

Attractor Patch Networks: Reducing Catastrophic Forgetting with Routed Low-Rank Patch Experts

Translated: 2026/3/15 13:03:10
transformersneural-networksmachine-learningcontinual-learninglow-rank

Japanese Translation

arXiv:2602.06993v1 Announce Type: new 要約:トランスフォーマーは強力な言語モデル化の精度を達成していますが、その位置ごとの前馈ネットワーク(FFN)は、稠密でグローバルに共有され、通常エンドエンドに更新されます。これらの特性は実用的な緊張を生み出しています。第一に、稠密な FFN は文脈に関わらずすべてのトークンで同等の計算リソースを消費し、言語が高度に集簇した文脈構造を持つ場合でも容量を均一に割り当てます。第二に、連続学習の文脈で、データストリームをサービスしながらモデルを更新する過程では、広範に共有される重みに触れる小さな更新が生じ相互作用を引き起こすことがよくあります。 私たちは、トランスフォーマーの FFN の Plug-compatible 替わりのアトラクター・パッチネットワーク(APN)を提案します。APN はパッチ専門家の銀行です。各トークンに対して、トークン表現が学習されたプロトタイプに一致させて、小さな top-k のパッチセットを似たロートが選択します。各選択されたパッチは、コンパクトなコードに条件付けされたロウランクなリサミダ Update を発します。このアーキテクチャは、標準のトランスフォーマーインターフェースを保ちつつ、条件付きで文脈に特化された非線形変換をもたらします。 本論文は、APN をアーキテクチャの基本要素として焦点を当てています。私たちは APN を形式化し、それの表現力を Piecewise ロウランク・リサミダ関数クラスとして解析し、APN が連続学習に自然に適合することを可能にする単純な相互作用と安定性の論證を導出します。文字レベルの言語モデル化の実験において、APN は競合的なペルプリティ(4.57 vs 4.32 PPL)を達成すると同時に、劇的により良い連続適応を可能にします:シフトド・ドメインに適応する場合、APN はグローバルな細微調整 performed dense FFN ベースラインと比較して、2.6 倍良い保留率(元のドメインで 11.1 vs 29.4 PPL)と 2.8 倍良い適応(新しいドメインで 6.4 vs 17.8 PPL)を達成します。

Original Content

arXiv:2602.06993v1 Announce Type: new Abstract: Transformers achieve strong language modeling accuracy, yet their position-wise feed-forward networks (FFNs) are dense, globally shared, and typically updated end to end. These properties create two practical tensions. First, dense FFNs spend the same compute on every token regardless of context, and they allocate capacity uniformly even when language exhibits highly clustered context structure. Second, continual learning, in the sense of updating the model while serving a data stream, often produces interference because a small update touches broadly shared weights. We propose Attractor Patch Networks (APN), a plug-compatible replacement for the Transformer FFN. APN is a bank of patch experts. A similarity router selects a small top-k set of patches for each token by matching the token representation to learned prototypes. Each selected patch emits a low-rank residual update conditioned on a compact code. The architecture yields conditional, context-specialized nonlinear transformations while preserving the standard Transformer interface. This paper focuses on APN as an architectural primitive. We formalize APN, analyze its expressivity as a piecewise low-rank residual function class, and derive simple interference and stability arguments that make APN naturally compatible with continual learning. In experiments on character-level language modeling, APN achieves competitive perplexity (4.57 vs 4.32 PPL) while enabling dramatically better continual adaptation: when adapting to a shifted domain, APN achieves 2.6 times better retention (11.1 vs 29.4 PPL on the original domain) and 2.8 times better adaptation (6.4 vs 17.8 PPL on the new domain) compared to global fine-tuning of a dense FFN baseline.