Back to list
ReCAPA:層階的予測校正により、連鎖故障を緩和する
ReCAPA: Hierarchical Predictive Correction to Mitigate Cascading Failures
Translated: 2026/4/24 20:15:56
Japanese Translation
arXiv:2604.21232v1 発表型:新
概要: 視覚 - 言語 - 行動(VLA)システムは、マルチモーダル環境において複数のステップをわたるタスクを実行するための指示に従います。最近の VLA アプローチでは、事後の補正メカニズムに頼ることが多く、あるいは固定されたタスク分解とアライメントスキームの下で動作しています。しかし、中間ステップが誤って指定されると、局所的な誤差は次のステップへと伝播し、最終的に連鎖的な失敗へと蓄積します。この複利的な効果を軽減するために、私達は「予測アライメントおよび計画法アーキテクチャ(ReCAPA)」を提案します。これは、3 つのレベル——行動、サブゴール、軌跡——にわたる偏差を調整するために予測と対比を利用する枠組みです。Sinkhorn ベースのモジュールと Score-field モジュールを使用して、すべてのレベルにおいて семантиックなアライメントが強制されます。予測補正とアライメントは共にトレーニング中に行動生成器を更新し、それは微細なステップを調整して全体的な意図に沿ったままにすることを可能にします。我々はさらに、タスクにおける誤差伝播と回復プロセスを定量化するための 2 つの新しい指標を導入し、ミスの広がりおよび長期的な実行における消え方を読み取ります。実験は、ReCAPA が VisualAgentBench、MineDojo、AI2-THOR などのエンボディーメントエージェントベンチマークで競争力のある結果を達成し、強力な私有およびオープンソースの大型言語モデルベースラインを優越することを示しています。
Original Content
arXiv:2604.21232v1 Announce Type: new
Abstract: Vision-Language-Action systems follow instructions to execute multi-step tasks in multimodal environments. Recent VLA approaches typically rely on post-hoc correction mechanisms or operate under fixed task decompositions and alignment schemes. However, once an intermediate step is mis-specified, local errors propagate through subsequent steps and eventually accumulate into cascading failures. To mitigate this compounding effect, we propose Predictive Alignment and Planning Architecture, a framework that uses prediction and contrast to adjust deviations across three levels: actions, subgoals, and trajectories. Semantic alignment is enforced at all levels using a Sinkhorn-based module and a Score-field module. The predictive correction and alignment jointly update the action generator during training, enabling it to adjust fine-grained steps to remain aligned with the overall intent. We further introduce two new metrics to quantify error propagation and recovery processes in tasks, capturing how mistakes spread and fade over long-horizon execution. Experiments show that ReCAPA achieves competitive results on embodied agent benchmarks such as VisualAgentBench, MineDojo, and AI2-THOR, outperforming strong proprietary and open-source Large Language Model baselines.