Back to list
十分が充分でないとき:情報を詆認した取り組みの虚構化
When Is Enough Not Enough? Illusory Completion in Search Agents
Translated: 2026/3/7 9:01:30
Japanese Translation
最近の検索プログラムは、マルチターンな帰納法と検索ツールを使って複数ステップや長いタイムスパンのベンチマークを強力に性能します。しかし、すべての要件に対応しているかは不明です。彼らが要求に対して追跡、確認し、多々の条件を維持する方法です。我々はこの能力についてマルチコンビュートの問題で調査しました、すなわち答えはいくつかの制約を同時に満たすべきであるということです。我々には偽った完了が頻発して出てきていて、つまり、代理人はタスクが完了したように信じていることがあり、決まった条件や未解決かつ不適切なものさえあるのに変わりありませんから、その確認を欠けてしまうような答えを作っていることがわかりました。この行動の診断のために、私たちの評価フレームワークである知的簿録を開発しました、これは制約に対する支持を経て代理人の信念をすべて追跡していきます。我々の分析では四つの再出現的な失敗のパターンが見出されました:シンプルな主張・未踏の対立・停滞・早めの脱退。これらの発見にインスピレーションを借りて、私たち自身の制約状態を実行時間中に追跡することでこれらのデリケートに対する不適切な行動の影響が緩和できるか確認することによる解決策を探しました LiveLedgerという推論時にトラッカーです。このシンプルな介入は性能自体に大きく改善し、不完全確認するアンドレス(最高26.5%改善)と全体的な正確性(最高11.6%改善)を見せてきました多条件の問題に対して。
Original Content
arXiv:2602.07549v1 Announce Type: new
Abstract: Recent search agents leverage multi-turn reasoning and search tools to achieve strong performance on multi-hop and long-horizon benchmarks. Yet it remains unclear whether they reliably reason across all requirements by tracking, verifying, and maintaining multiple conditions in these questions. We study this capability under multi-constraint problems, where valid answers must satisfy several constraints simultaneously. We find that illusory completion frequently occurs, wherein agents believe tasks are complete despite unresolved or violated constraints, leading to underverified answers. To diagnose this behavior, we introduce the Epistemic Ledger, an evaluation framework that tracks evidential support and agents' beliefs for each constraint throughout multi-turn reasoning. Our analysis reveals four recurring failure patterns: bare assertions, overlooked refutations, stagnation, and premature exit. Motivated by these findings, we examine whether explicit constraint-state tracking during execution mitigates these failures via LiveLedger, an inference-time tracker. This simple intervention consistently improves performance, substantially reducing underverified answers (by up to 26.5%) and improving overall accuracy (by up to 11.6%) on multi-constraint problems.