Back to list
arxiv_cs_ai 2026年2月10日

効率的な大文字列モデル用の注意メカニズム: 対話性研究

Efficient Attention Mechanisms for Large Language Models: A Survey

Translated: 2026/2/14 7:16:16

Japanese Translation

Transformer基底となるアーキテクチャは、現在の大規模言語モデルの普遍的な骨格となっています。しかし、自自己対応が二次的時間とメモリ複雑さで生成され続けるため、長いContextモデリングを効率的にすることは根本的な障壁です。この制限に対処するために、最近の研究は、「線形対応」方法と「sparse対応」手法という2つの主要な分類を取り入れました。 線形複雑さは核近似や反復表現または高速重量ダイナミックスによって達成されることができ、これにより計算負荷を軽減しながらスケーラブルした議論を実行できます。sparse対応手法の一方で、固定パターンに基づいたトークンに対する注意計算が選択されたサブセットだけに制限され、効率性だけでなく全体的な.Contextカバーも保証されているため、強力なパフォーマンスを示します。 この調査ではこれらの発展に関するシステム的かつ完全な概観を提供し、両方のアルゴリズミックなイノベーションとハードウェアレベルの考慮事項が組み合わさっている点に注意すべきです。 他にも効率的な対応の導入による大規模な前処理された語彙モデルの組み合わせにより、完全に効率的である対話性構造のアーキテクチャだけでなく、既存の部分と全体を織り交ぜるハイブリッドデザインについても調査します。理論的基礎と実用的な展開戦略との組み合わせによって、これには進化したスケーラブルで効果的な言語モデル設計を目的としています。

Original Content

arXiv:2507.19595v3 Announce Type: replace-cross Abstract: Transformer-based architectures have become the prevailing backbone of large language models. However, the quadratic time and memory complexity of self-attention remains a fundamental obstacle to efficient long-context modeling. To address this limitation, recent research has introduced two principal categories of efficient attention mechanisms. Linear attention methods achieve linear complexity through kernel approximations, recurrent formulations, or fastweight dynamics, thereby enabling scalable inference with reduced computational overhead. Sparse attention techniques, in contrast, limit attention computation to selected subsets of tokens based on fixed patterns, block-wise routing, or clustering strategies, enhancing efficiency while preserving contextual coverage. This survey provides a systematic and comprehensive overview of these developments, integrating both algorithmic innovations and hardware-level considerations. In addition, we analyze the incorporation of efficient attention into largescale pre-trained language models, including both architectures built entirely on efficient attention and hybrid designs that combine local and global components. By aligning theoretical foundations with practical deployment strategies, this work aims to serve as a foundational reference for advancing the design of scalable and efficient language models.