Back to list
arxiv_cs_lg 2026年4月20日

CoMeT: Long コンテキストモデリングのための効率的な共有メモリアイブラクター

CoMeT: Collaborative Memory Transformer for Efficient Long Context Modeling

Translated: 2026/4/20 11:05:10
transformerslong-contextmemory-efficientllm-architecturereinforcement-learning

Japanese Translation

arXiv:2602.01766v2 発表タイプ:置き換え アブストラクト:標準的なトランスフォーマーの平方の時間計算量と無制限に増大するキー・値(KV)キャッシュは、ロングコンテキスト処理の主要な障壁となっています。これを克服するために、私たちは、LLM を任意の長さのシークエンスを常駐メモリ使用量と線形時間の計算量で処理できるようにする、新しいアーキテクチャである共有メモリアイブラクター(CoMeT)を導入しました。効率的なプラグインモジュールとして設計された CoMeT は、最小限のファインチューニングのみで事前学習されたモデルに統合できます。それは sequential データチャンクに基づいて動作し、上下文を管理するための二重メモリシステムを使用します:最近のイベント用の FIFO クエューにある一時メモリと、長期の依存関係用のゲート付き更新規則を持つグローバルメモリ。これらのメモリは、次のチャンクのための動的なソフトプロンプトとして機能します。極めて長いコンテキストでの効率的なファインチューニングを可能にするために、私たちは新しいレイヤーレベルのパラレルパイプライン戦略を導入しました。私たちのアプローチの有効性は顕著です:CoMeT を備え、32k コンテキストでファインチューニングされたモデルは、100 万トークンのシークエンス内の何らかの位置からパスキーを正確にリトリーブできます。SCROLLS ベンチマークにおいて、CoMeT は他の効率的な方法を超え、要約タスクにおけるパフォーマンスを全アテンションベースラインに匹敵するものとなりました。その実世界での効果は、実際のエージェントおよびユーザー行動 QA タスクでもさらに検証されました。コードは次の場所に利用可能です:https://github.com/LivingFutureLab/Comet

Original Content

arXiv:2602.01766v2 Announce Type: replace Abstract: The quadratic complexity and indefinitely growing key-value (KV) cache of standard Transformers pose a major barrier to long-context processing. To overcome this, we introduce the Collaborative Memory Transformer (CoMeT), a novel architecture that enables LLMs to handle arbitrarily long sequences with constant memory usage and linear time complexity. Designed as an efficient, plug-in module, CoMeT can be integrated into pre-trained models with only minimal fine-tuning. It operates on sequential data chunks, using a dual-memory system to manage context: a temporary memory on a FIFO queue for recent events, and a global memory with a gated update rule for long-range dependencies. These memories then act as a dynamic soft prompt for the next chunk. To enable efficient fine-tuning on extremely long contexts, we introduce a novel layer-level pipeline parallelism strategy. The effectiveness of our approach is remarkable: a model equipped with CoMeT and fine-tuned on 32k contexts can accurately retrieve a passkey from any position within a 1M token sequence. On the SCROLLS benchmark, CoMeT surpasses other efficient methods and achieves performance comparable to a full-attention baseline on summarization tasks. Its practical effectiveness is further validated on real-world agent and user behavior QA tasks. The code is available at: https://github.com/LivingFutureLab/Comet