Back to list
arxiv_cs_ai 2026年2月10日

圧縮されたメモリを用いた動的長_context推理:エンドツイートの再学習による終到点の選択

Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

Translated: 2026/3/7 13:29:48
reinforcement-learningcompressed-memoryend-to-end-modelinglong-context-processing

Japanese Translation

大型言語モデル(LLMs)は、大量な文脈処理に大きな課題を克服しています。この困難は通常の計算コストの二番目の方と情報抹消、RAGによる増幅された生成の利用によるクッションフラキッジなどから来ています。我々は長文入力に対する効率的な長文インスタンス推論に関する知能主義の意図したフレームワークを提案しました。これは長い入力を分割し、コンピュートラーゼムを使用してそれぞれの分割した情報塊を圧縮されたメモリ表現にエンコードします。また、選択性の記憶召喚と動的な推理推進モジュールにより要約されたデータが対象タスクに対応するために選ばれる段階によって処理されます。コンプレッサーと理由付けモジュールは統合的再学習で全体的に最適化されましたが、入力分割がトレーニングされる閘門モジュールは別個にクラシフィケーションの訓練を受けています。論文結果は、RULER-HQAなどの複数節へのリトライに対する優れた成果を示しています。提案法では、最高GPUメモリ効率において2倍とインスタンスプロセッシング速度が6倍に速くなります。

Original Content

arXiv:2602.08382v1 Announce Type: cross Abstract: Large Language Models (LLMs) face significant challenges in long-context processing, including quadratic computational costs, information forgetting, and the context fragmentation inherent in retrieval-augmented generation (RAG). We propose a cognitively inspired framework for efficient long-context inference based on chunk-wise compression and selective memory recall, rather than processing all raw tokens. The framework segments long inputs into chunks and encodes each chunk into compressed memory representations using a learned compressor. A gating module dynamically selects relevant memory blocks, which are then iteratively processed by a reasoning module with an evolving working memory to solve downstream tasks. The compressor and reasoner are jointly optimized via end-to-end reinforcement learning, while the gating module is trained separately as a classifier. Experimental results show that the proposed method achieves competitive accuracy on multi-hop reasoning benchmarks such as RULER-HQA, extrapolates context length from 7K to 1.75M tokens, and offers a favorable accuracy-efficiency trade-off compared to strong long-context baselines. In particular, it achieves up to a 2 times reduction in peak GPU memory usage and a 6 times inference speedup over MemAgent.