Back to list
arxiv_cs_ai 2026年4月24日

Open-World 環境における VLAs の(実際に)動作原理について

How VLAs (Really) Work In Open-World Environments

Translated: 2026/4/24 20:24:26
vlaroboticsvision-language-actionbenchmarkssafety

Japanese Translation

arXiv:2604.21192v1 Announce Type: cross 要旨: VLAs(Vision-Language-Action モデル)は、ロボットアプリケーションで広く利用されており、多様な操作課題において大きな成功を収めています。最近では、VLAs が BEHAVIOR1K(B1K)などのベンチマークを評価して、複雑な家事を解決する長射程のタスクにも使用されています。このようなベンチマークにおける進捗の測定に共通して使われる指標は、成功確率または、進行に無関心な基準を満たす場合に基づく部分的なスコアであり、これはオブジェクトの最終状態のみが考慮され、その状態に至ったまでの出来事は無視されています。本稿では、こうした評価プロトコルは操作の安全性の側面についてほとんど何も示さず、報告された性能を誇張する可能性があり、将来のリアルなデプロイメントにおける核心的な課題を損ねると主張します。この目的を達し、最先端モデルを B1K チallenge で徹底的に分析するとともに、再現性と性能の一貫性、ポリシー操作の安全性、タスク認識、そしてタスク完了に至らない主要な要素に基づいてポリシーを評価します。その後、より複雑でインタラクティブなシナリオにおいてポリシーの真性能をより良く測定するために、安全性違反を捉える評価プロトコルを提案します。最後に、既存の VLAs の限界について討論し、将来の研究の動機付けを行います。

Original Content

arXiv:2604.21192v1 Announce Type: cross Abstract: Vision-language-action models (VLAs) have been extensively used in robotics applications, achieving great success in various manipulation problems. More recently, VLAs have been used in long-horizon tasks and evaluated on benchmarks, such as BEHAVIOR1K (B1K), for solving complex household chores. The common metric for measuring progress in such benchmarks is success rate or partial score based on satisfaction of progress-agnostic criteria, meaning only the final states of the objects are considered, regardless of the events that lead to such states. In this paper, we argue that using such evaluation protocols say little about safety aspects of operation and can potentially exaggerate reported performance, undermining core challenges for future real-world deployment. To this end, we conduct a thorough analysis of state-of-the-art models on the B1K Challenge and evaluate policies in terms of robustness via reproducibility and consistency of performance, safety aspects of policies operations, task awareness, and key elements leading to the incompletion of tasks. We then propose evaluation protocols to capture safety violations to better measure the true performance of the policies in more complex and interactive scenarios. At the end, we discuss the limitations of the existing VLAs and motivate future research.