Back to list
arxiv_cs_ai 2026年4月24日

ノイズから意図へ:残差ブリッジを用いた生成型 VLA ポリシーのアンカー化

From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges

Translated: 2026/4/24 20:26:29
vlarobotic-learninggenerative-aidiffusion-modelsembodied-intelligence

Japanese Translation

arXiv:2604.21391v1 発表タイプ:クロス 要旨:高度な語義的理解を低レベルな物理制御へ接続することは、認知と行動の基本的な時空間スケールのミスマッチに起因する、エンボディッド・インテリジェンスにおける恒久の課題であり、この差異を無視することで、現在の生成型 VLA ポリシーは最適化中の表現効率の低下と弱い条件一致を引き起こす。本稿では、我々は「意図からの微調整」というパラダイムへの移行を実現するアーキテクチャ ResVLA を提案する。ロボットの動きがグローバルな意図とローカルなダイナミクスに自然に分解されることが認識され、ResVLA はスペクトル解析を利用して制御を決定論的な低周波アンカーと確率的な高周波残差に分割する。生成プロセスを予測された意図にアンカーすることで、我々のモデルはローカルなダイナミクスの微調整を単に残差拡散ブリッジを通じて行うことに专注する。大規模なシミュレーション実験により、ResVLA は標準的な生成型ベースラインよりも競争力のあるパフォーマンス、言語およびロボットエンボディメントの摂動に対する高い頑健性、そしてより高速な収束を示すことが明らかになった。それはまた、実世界のロボット実験でも高いパフォーマンスを示した。

Original Content

arXiv:2604.21391v1 Announce Type: cross Abstract: Bridging high-level semantic understanding with low-level physical control remains a persistent challenge in embodied intelligence, stemming from the fundamental spatiotemporal scale mismatch between cognition and action. Existing generative VLA policies typically adopt a "Generation-from-Noise" paradigm, which disregards this disparity, leading to representation inefficiency and weak condition alignment during optimization. In this work, we propose ResVLA, an architecture that shifts the paradigm to "Refinement-from-Intent." Recognizing that robotic motion naturally decomposes into global intent and local dynamics, ResVLA utilizes spectral analysis to decouple control into a deterministic low-frequency anchor and a stochastic high-frequency residual. By anchoring the generative process on the predicted intent, our model focuses strictly on refining local dynamics via a residual diffusion bridge. Extensive simulation experiments show that ResVLA achieves competitive performance, strong robustness to language and robot embodiment perturbations, and faster convergence than standard generative baselines. It also demonstrates strong performance in real-world robot experiments.