Back to list
COMPASS: LLM エージェントにおける制約最適化ベンチマーキング
COMPASS: Benchmarking Constrained Optimization in LLM Agents
Translated: 2026/4/20 11:04:06
Japanese Translation
arXiv:2510.07043v2 Announce Type: replace
要旨:人間の意思決定にはしばしば制約付き最適化が含まれます。LLM エージェントが旅行計画、購買、スケジュール作成などの現実世界のタスクを支援するために展開されるにつれて、これらの能力を模倣することが求められます。COMPASS とは、LLM エージェントが現実的な旅行計画のセットアップで制約付き最適化を実行できるかを評価するベンチマークを導入したものです。これらのタスクで成功するためには、エージェントは利用者と複数回会話してタスク情報を収集し、かつデータベースから情報を収集するためにツールを使用する必要があります。次に、エージェントは硬制約を満たすだけでなく、ユーザーの効用目的を最適化すること提案した解決策を作成しなければなりません。最先端モデルを評価した結果、私達は大きな実現可能性と最適性とのギャップを明らかにしました:モデルは 70〜90% の実現可能性(制約満足度)を達成しますが、最適性(効用最適化)は 20〜60% のみです。私達の分析は、ツールの使用がボトルネックではないことを示しています。代わりに、検索空間の充分な探索不足が核心的な制限であり、成功は収集された情報と強く相関しています。コーディングエージェントはこのギャップを緩和する有望なアプローチを提供しています。COMPASS は、制約を満たし、目的を最適化することを通じて人間の意思決定を真に模倣できる LLM エージェントを開発するためのテストベッドを提供します。
Original Content
arXiv:2510.07043v2 Announce Type: replace
Abstract: Human decision-making often involves constrained optimization. As LLM agents are deployed to assist with real-world tasks like travel planning, shopping, and scheduling, they must mirror this capability. We introduce COMPASS, a benchmark that evaluates whether LLM agents can perform constrained optimization in realistic travel planning settings. To success in these tasks, agents must engage in multi-turn conversations with user to gather task information as well as use tools to gather information from the database. Then agents must propose a solution that not only satisfies hard constraints but also optimizes user's utility objective. Evaluating state-of-the-art models, we reveal a significant feasible-optimal gap: while models achieve 70-90% feasibility (constraint satisfaction), they reach only 20-60% optimality (utility optimization). Our analysis shows that tool use is not the bottleneck. Instead, the core limitation is insufficient exploration of the search space, with success strongly correlating with information gathered. Coding agents show a promising approach to mitigate this gap. Together, COMPASS provides a testbed for developing LLM agents that can truly mirror human decision-making by both satisfying constraints and optimizing objectives.