Back to list
Stream-CQSA: Flexible Workload Scheduling を通じた Attention 計算における OOM 回避
Stream-CQSA: Avoiding Out-of-Memory in Attention Computation via Flexible Workload Scheduling
Translated: 2026/4/24 20:01:02
Japanese Translation
arXiv:2604.20819v1 Announce Type: new
Abstract: 長文脈大規模言語モデルのスケーラビリティは、正確な自己注意の 2 乗倍メモリコストによって本質的に制限されており、これは現代的なハードウェアにおけるOutOf-Memory(OOM)失敗を引き起こすことが一般的である。既存の手法はメモリ効率を近似的に線形複雑性に改善しているが、クエリ、キー、バリューのテンソルがデバイスメモリに完全に収まることを前提としている。本研究では、Cyclic Quorum Sets(CQS)理論から派生した操作である CQS Divide を導入し、これを仮定を取り除く。CQS Divide は、完全なシーケンスの注意力と同じ結果を返す独立したサブシークエンシャル計算のセットに注意力を分解する操作である。この分解を利用して、我々は任意のメモリ予算内に適合するサブ問題に注意力を分割する、メモリ適応型スケジューリングフレームワークである Stream-CQSA を導入した。これにより、注意力は論理的に単一の操作ではなく、デバイスの間での通信なしに柔軟に実行可能なスケジューリング可能なタスクのコレクションとして再定義される。実験は予測可能なメモリスケーリングを示し、百億トークンのシークエンスを流式処理によって単一の GPU で実行可能であることを示している。これは、注意力の基礎的な数学的定義を変更したり、近似誤差を導入したりすることなく達成される。
Original Content
arXiv:2604.20819v1 Announce Type: new
Abstract: The scalability of long-context large language models is fundamentally limited by the quadratic memory cost of exact self-attention, which often leads to out-of-memory (OOM) failures on modern hardware. Existing methods improve memory efficiency to near-linear complexity, while assuming that the full query, key, and value tensors fit in device memory. In this work, we remove this assumption by introducing CQS Divide, an operation derived from cyclic quorum sets (CQS) theory that decomposes attention into a set of independent subsequence computations whose recomposition yields exactly the same result as full-sequence attention. Exploiting this decomposition, we introduce Stream-CQSA, a memory-adaptive scheduling framework that partitions attention into subproblems that fit within arbitrary memory budgets. This recasts attention from a logically monolithic operation into a collection of schedulable tasks, enabling flexible execution across devices without inter-device communication. Experiments demonstrate predictable memory scaling and show that exact attention over billion-token sequences can be executed on a single GPU via streaming, without changing the underlying mathematical definition of attention or introducing approximation error.