Back to list
arxiv_cs_lg 2026年4月24日

順序タスクにおける時間差補正:視覚・言語・動作モデルへの適用

Temporal Difference Calibration in Sequential Tasks: Application to Vision-Language-Action Models

Translated: 2026/4/24 20:05:18
vision-language-actionsequential-calibrationreinforcement-learningtemporal-differencerobotics

Japanese Translation

arXiv:2604.20472v1 Announce Type: cross 要約:最近、ロボティクス分野における視覚・言語・動作(VLA)モデルの進歩は、順序タスクにおける確実な不確実性の定量化の重要性を浮き彫りにしました。しかし、このような環境における補正の評価と改善は、特に部分軌道のみが観測されている状況においては、ほとんど研究されていないままです。本研究では、エピソードタスクにおける順序補正を定式化し、エピソードの途中につなぐように任務成功の信頼度を生成する一方で、成功はエピソードの終了時点で判断されると定義しました。我々は Brier スコアの順序展開を導入し、二値結果のケースにおいて、そのリスク最小化者が VLA ポリシーの値関数と一致することを示しました。この接続は不確実性補正と強化学習を架け橋渡しし、時間差(TD)値推定を原則的な時間経過に伴う補正機構として使用するのを可能にしました。我々は、TD 補正が、シミュレーションデータおよび実ロボットのデータ上で最前技術に対する性能向上をもたらすことを経験的に示しました。興味深いことに、TD を使用して補正された VLA は、単一ステップの動作確率であっても競合的な不確実性推定量をもたらすことができ、これは最近、異なる補正技術を用いて研究した結果とは対照的です。

Original Content

arXiv:2604.20472v1 Announce Type: cross Abstract: Recent advances in vision-language-action (VLA) models for robotics have highlighted the importance of reliable uncertainty quantification in sequential tasks. However, assessing and improving calibration in such settings remains mostly unexplored, especially when only partial trajectories are observed. In this work, we formulate sequential calibration for episodic tasks, where task-success confidence is produced along an episode, while success is determined at the end of it. We introduce a sequential extension of the Brier score and show that, for binary outcomes, its risk minimizer coincides with the VLA policy's value function. This connection bridges uncertainty calibration and reinforcement learning, enabling the use of temporal-difference (TD) value estimation as a principled calibration mechanism over time. We empirically show that TD calibration improves performance relative to the state-of-the-art on simulated and real-robot data. Interestingly, we show that when calibrated using TD, the VLA's single-step action probabilities can yield competitive uncertainty estimates, in contrast to recent findings that employed different calibration techniques.