Back to list
BudgetMem:言語モデルの長期文脈処理におけるコスト効率的なメモリ管理戦略の学習
BudgetMem: Learning Selective Memory Policies for Cost-Efficient Long-Context Processing in Language Models
Translated: 2026/2/14 8:09:19
Japanese Translation
大規模言語モデル (LLMs) は、長い文脈を処理する際に膨大的な計算とメモリ制約に直面しています。また、要件が高いものが存在します:理由を複数の文書や、多_SESSION のディスカッション、長い本のような文章において解釱することがあります。最近での進歩は、context 窓口を 100,000-1,000,000トークンに延長するまでと続きましたが、制約のある出力を実装するためにそれらのアプローチには無差別的なコストがかかります。我々はBudgeMemを開発し新たなメモリを加えた構造でSelective Memory Policies(選択的メモリポリシー)によって認識するべき情報を認識しますの、新しいアーキテクチャを開発しました。そのシステムが個々の情報に価値があることを決定し、その情報は厳格なメモリ制約の中で格納されるように指示です。それとは異なる現象があります Retrieval-Augmented Generation (RAG) 開発プロジェクトでは、全パートを保管します。BudgeMem は、学習のためのゲートメカニズムと BM25 対応sparse 検索と共に効率良い情報探しへと組み込まれました。そのコンセプトは、LLam-3.2-3B-Instruct の間隔700問答対応の 237トークンや5K-10Kトークンの長いファイルに対して、BudgeMem 可能性のある長期文脈システムを適格なハードウェアで実装するために検証しました。我々はベジメント最応動的解析(7個のバリエーション)、ナイスなベースライン対比と文書長さ分析を通じて、BudgeMem の効果性に対するデモを実施し、長いファイルの増大について示唆に富んだ結論を導き出しました。我々の努力は、機器が制限されていると判断できる場合であるシステムを実装することにより優れた長期文脈を扱うための道筋を与えます。その結果では、一般的な言語理解の能力にアクセスする容易さと民主的性も達成されました。
Original Content
arXiv:2511.04919v2 Announce Type: replace-cross
Abstract: Large Language Models (LLMs) face significant computational and memory constraints when processing long contexts, despite growing demand for applications requiring reasoning over extensive documents, multi-session dialogues, and book length texts. While recent advances have extended context windows to 100K-1M tokens, such approaches incur prohibitive costs for resource constrained deployments. We propose BudgetMem, a novel memory augmented architecture that learns what to remember rather than remembering everything. Our system combines selective memory policies with feature based salience scoring (entity density, TF-IDF, discourse markers, position bias) to decide which information merits storage under strict budget constraints. Unlike existing retrieval augmented generation (RAG) systems that store all chunks, BudgetMem employs learned gating mechanisms coupled with BM25 sparse retrieval for efficient information access. Through comprehensive experiments on 700 question answer pairs across short (237 tokens) and long (5K-10K tokens) documents with Llama-3.2-3B-Instruct, we demonstrate that BudgetMem achieves remarkable results on long documents: only 1.0% F1 score degradation while saving 72.4% memory compared to baseline RAG. We validate our approach through budget sensitivity analysis (testing 7 budget ratios), naive baseline comparisons, and document length analysis, showing that BudgetMem's benefits increase with document length. Our work provides a practical pathway for deploying capable long context systems on modest hardware, democratizing access to advanced language understanding capabilities.