arxiv_cs_cv 2026年2月10日

クロスビューワールドモデル

Cross-View World Models

Translated: 2026/3/15 18:02:25

world-modelsvisionreinforcement-learningmulti-viewrobotics

Japanese Translation

arXiv:2602.07277v1 発表タイプ：新規要約：ワールドモデルは、未来の状態を想像することでエージェントの計画を可能にしますが、既存のアプローチは通常エゴцентриックな単一点から動作しており、他の視点から計画が容易になる場合であっても困難です。例えば、ナビゲーションは上空の視点から大きく利益を受けます。我々は、クロスビュー予測の目的で訓練されたクロスビューワールドモデル（XVWM）を提示します：ある視点からのフレームのシーケンスに対して、動作後の同じ視点または異なる視点からの未来状態を予測します。クロスビューの一貫性を強制することは幾何学的な正則化として機能します：入力と出力の視点が視覚的重合体がほとんどない場合でも、視点を超えて予測するため、モデルは環境の 3 次元構造の視点不変な表現を学習する必要があるのです。我々は、視覚的アライメントが高く、高周波数のアクションラベルを備えた正確にアライメントされたマルチカメラレコーディングを提供する Aimlabs という射撃訓練プラットフォームからの同期したマルチビューゲームプレイデータで訓練しました。得られたモデルは、エージェントに複数の視点における並列な想像力ストリームを提供し、タスクに最も適した参照系を用いて計画を可能にしつつ、エゴцентриックな視点から実行することを可能にしました。我々の結果は、マルチビューの一貫性が空間的な基盤を持つ表現のための強力な学習シグナルであることを示しています。最後に、他方の視点から自らの行動の結果を予測することは、マルチエージェントの設定における視点共有のための基盤となる可能性があります。

Original Content

arXiv:2602.07277v1 Announce Type: new Abstract: World models enable agents to plan by imagining future states, but existing approaches operate from a single viewpoint, typically egocentric, even when other perspectives would make planning easier; navigation, for instance, benefits from a bird's-eye view. We introduce Cross-View World Models (XVWM), trained with a cross-view prediction objective: given a sequence of frames from one viewpoint, predict the future state from the same or a different viewpoint after an action is taken. Enforcing cross-view consistency acts as geometric regularization: because the input and output views may share little or no visual overlap, to predict across viewpoints, the model must learn view-invariant representations of the environment's 3D structure. We train on synchronized multi-view gameplay data from Aimlabs, an aim-training platform providing precisely aligned multi-camera recordings with high-frequency action labels. The resulting model gives agents parallel imagination streams across viewpoints, enabling planning in whichever frame of reference best suits the task while executing from the egocentric view. Our results show that multi-view consistency provides a strong learning signal for spatially grounded representations. Finally, predicting the consequences of one's actions from another viewpoint may offer a foundation for perspective-taking in multi-agent settings.