Back to list
LOCA-bench: 様々な状況成長下の言語代理人のベンチマーク
LOCA-bench: Benchmarking Language Agents Under Controllable and Extreme Context Growth
Translated: 2026/3/7 9:40:41
Japanese Translation
大規模な言語モデル (LLMs) は、長時間の実世界のタスクを非常に有能力にしています。しかし、状況が増えるにつれて信頼性は通常低下し、これには「状況腐食」という名の現象として知られています。既存の長い状況ベンチマークでは、最も一般的な設定である一連のステップでモデルの情報参照能力を評価することが主に焦点となっています。実質的なスケーラビリティ条件下においては、LLMs は環境を探索し指示を追う、そして有用な情報を抽出しつつ適応的行動を予測する必要もあります。これは通常複雑になる状況の中で。これらの設定で言語代理人の評価を行うために我々は LOCA-bench (長い状況代理人のベンチマーク) を導入します。目標タスクから、我々の LOCA-bench は自動化とスケーラビリティに優れた環境ステート制御により代理人的な状況長を制御できます。このデザインは、状態がより複雑になるほど長い状況を与えつつ基本的なタスクの意味合いは一定のまま LOCA-bench を展開することができるとします。ローカベンチマークでは、これらのモデルとサフォークに言語代理人を評価し、それぞれのステート管理戦略も含まれています。エージェントの性能は一般的には状況がより複雑になるにつれて低下しますが、優れた状態管理技術によって総体的成功率は大きく改善されます。我々は LOCA-bench をオープンソースにすることで大規模モデルとサフォークについて長時間状況とエージェンシーに関するスクリーンを開設するプラットフォームを提供したいのです:https://github.com/hkust-nlp/LOCA-bench
Original Content
arXiv:2602.07962v1 Announce Type: new
Abstract: Large language models (LLMs) are increasingly capable of carrying out long-running, real-world tasks. However, as the amount of context grows, their reliability often deteriorates, a phenomenon known as "context rot". Existing long-context benchmarks primarily focus on single-step settings that evaluate a model's ability to retrieve information from a long snippet. In realistic scenarios, however, LLMs often need to act as agents that explore environments, follow instructions and plans, extract useful information, and predict correct actions under a dynamically growing context. To assess language agents in such settings, we introduce LOCA-bench (a benchmark for LOng-Context Agents). Given a task prompt, LOCA-bench leverages automated and scalable control of environment states to regulate the agent's context length. This design enables LOCA-bench to extend the context length potentially to infinity in a controlled way while keeping the underlying task semantics fixed. LOCA-bench evaluates language agents as a combination of models and scaffolds, including various context management strategies. While agent performance generally degrades as the environment states grow more complex, advanced context management techniques can substantially improve the overall success rate. We open-source LOCA-bench to provide a platform for evaluating models and scaffolds in long-context, agentic scenarios: https://github.com/hkust-nlp/LOCA-bench