Back to list
arxiv_cs_cv 2026年2月10日

CostNav: 現実世界の物理 AIエージェントの経済コスト評価のためのナビゲーションベンチマーク

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

Translated: 2026/3/15 17:03:34
costnavnavigation-benchmarkai-agentseconomicsisac-sim

Japanese Translation

arXiv:2511.20216v3 Announce Type: replace-cross 摘要: 現在のナビゲーションベンチマークは、単純化された環境におけるタスク成功に重点を置いているため、自律送達システムの現実世界の商業化において本質的な多面的な経済制約を無視している。我々は、業界標準データ(例:SEC 開示書類や AIS 傷害報告書)と、Isaac Sim の詳細な衝突および貨物ダイナミクスを統合し、現実世界のビジネス運用に合わせて包括的な経済コスト収益分析を通じて物理 AI エージェントを評価する、経済ナビゲーションベンチマークである CostNav を導入しました。CostNav は、単純なタスク完了を超え、複雑な現実世界のシナリオにおけるビジネス価値を正確に評価することを可能にします。我々の知る限り、CostNav はナビゲーション研究指標と商業的実現可能性の間のギャップを定量的に明らかにする最初の研究であり、簡素化されたタスクにおけるタスク成功最優先は、現実世界の経済的展開最優先とは根本的に異なることを示しています。我々の評価では、ルールベースの Nav2 ナビゲーションが現在の手法が経済的に実用不可能であることを示しました:貢献利益率は AMCL で -22.81/run、GPS で -12.87/runであり、利益分岐点が存在しません。我々は、CostNav 上で経済的実現性を達成するナビゲーション政策を開発するようコミュニティを挑戦しています。我々は手法論を否定し、成功は単にコストの指標のみで評価されます。すべてのリソースは https://github.com/worv-ai/CostNav に利用可能です。

Original Content

arXiv:2511.20216v3 Announce Type: replace-cross Abstract: While current navigation benchmarks prioritize task success in simplified settings, they neglect the multidimensional economic constraints essential for the real-world commercialization of autonomous delivery systems. We introduce CostNav, an Economic Navigation Benchmark that evaluates physical AI agents through comprehensive economic cost-revenue analysis aligned with real-world business operations. By integrating industry-standard data - such as SEC filings and AIS injury reports - with Isaac Sim's detailed collision and cargo dynamics, CostNav transcends simple task completion to accurately evaluate business value in complex, real-world scenarios. To our knowledge, CostNav is the first work to quantitatively expose the gap between navigation research metrics and commercial viability, revealing that optimizing for task success on a simplified task fundamentally differs from optimizing for real-world economic deployment. Our evaluation of rule-based Nav2 navigation shows that current approaches are not economically viable: the contribution margin is -22.81/run (AMCL) and -12.87/run (GPS), resulting in no break-even point. We challenge the community to develop navigation policies that achieve economic viability on CostNav. We remain method-agnostic, evaluating success solely on the metric of cost rather than the underlying architecture. All resources are available at https://github.com/worv-ai/CostNav.