Back to list
GrndCtrl: 自己教師あり報酬配分による世界モデルのアンカリング
GrndCtrl: Grounding World Models via Self-Supervised Reward Alignment
Translated: 2026/3/15 16:06:09
Japanese Translation
arXiv:2512.01952v2 Announce Type: replace
Abstract: 最近の動画世界モデルの進歩により、大規模生成モデルは高い視覚忠実度を備えたエンボディド環境をシミュレーションすることが可能となり、予測・計画・制御の強力な先行情報を提供しました。しかし、これらのモデルは非現実的ではないにもかかわらず、幾何学的アンカリングを欠いており、空間的な整合性と安定性を必要とするナビゲーションタスクへの適用が制限されています。我々は、幾何学的および感覚的報酬を通じて、事前学習された世界モデルを物理的に検証可能な構造と一致させるための自己教師ありポス Training フレームワークである、反強化学習でアンカリング (RLWG) を導入しました。大規模モデルにおける検証可能なフィードバックからの反強化学習 (RLVR) に類し、RLWG はポーズサイクル整合性、深度再投影、時間的整合性を測定する複数の報酬を使用できます。我々は、グループ相対政策最適化 (GRPO) に基づく報酬配分適応法である GrndCtrl でこのフレームワークを具体化し、安定した軌道、一貫した幾何学、そしてエンボディドナビゲーションのための確実なロールアウトを維持する世界モデルを生成しました。大規模言語モデルのポス Training 配分のようには、GrndCtrl は生成事前学習とアンカリングされた行動を架け橋する検証可能な報酬を利用し、環境外環境における supervised Fine-tuning に比べて優れた空間的整合性とナビゲーション安定性を達成します。
Original Content
arXiv:2512.01952v2 Announce Type: replace
Abstract: Recent advances in video world modeling have enabled large-scale generative models to simulate embodied environments with high visual fidelity, providing strong priors for prediction, planning, and control. Yet, despite their realism, these models often lack geometric grounding, limiting their use in navigation tasks that require spatial coherence and stability. We introduce Reinforcement Learning with World Grounding (RLWG), a self-supervised post-training framework that aligns pretrained world models with a physically verifiable structure through geometric and perceptual rewards. Analogous to reinforcement learning from verifiable feedback (RLVR) in language models, RLWG can use multiple rewards that measure pose cycle-consistency, depth reprojection, and temporal coherence. We instantiate this framework with GrndCtrl, a reward-aligned adaptation method based on Group Relative Policy Optimization (GRPO), yielding world models that maintain stable trajectories, consistent geometry, and reliable rollouts for embodied navigation. Like post-training alignment in large language models, GrndCtrl leverages verifiable rewards to bridge generative pretraining and grounded behavior, achieving superior spatial coherence and navigation stability over supervised fine-tuning in outdoor environments.