Back to list
3D 整合性を維持する動画世界モデルのための幾何気配する回転位置埋め込み
Geometry-Aware Rotary Position Embedding for Consistent Video World Model
Translated: 2026/3/15 19:02:21
Japanese Translation
arXiv:2602.07854v1 Announce Type: new
概要:明示的なカメラ制御下での将来の観察をシミュレートする予測型世界モデルは、インタラクティブ AI において基本となります。急速な進展にもかかわらず、現在のシステムには空間的恒常性(spatial persistence)が欠けており、長時間の軌道上で安定したシーン構造を維持できず、カメラが以前観察した場所に戻ると詳細な幻觉(hallucination)が生じます。当研究では、この幾何学的なドリフトは、画面上の位置埋め込みに対する依存に起因するものであり、3D 整合性に必要な投影幾何学と衝突することを特定しました。我々は、カメラ線の方向を直接ビデオトランスフォーマーの自己注意層内に注入する幾何気配のエンコーディング「ViewRope」を導入しました。画素の近接性ではなく相対的な線の幾何学で注意をパラメータ化することで、ViewRope は時間的間隔を超えて 3D 整合性のあるコンテンツを再取得するためのモデル由来的な誘発バイアスを提供します。さらに、これらの幾何学的ひょうを効果的に利用して関連する履歴フレームを選択的に注視する「幾何気配フレームスパースな注意」を提案し、記憶の整合性を犠牲することなく効率を向上させました。また、ループ閉じ込め忠実度と幾何学的ドリフトを測定する診断スイート「ViewBench」を提示しました。当社の結果は、ViewRope が長期整合性を大幅に改善しつつ計算コストを削減することを示しています。
Original Content
arXiv:2602.07854v1 Announce Type: new
Abstract: Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce \textbf{ViewRope}, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose \textbf{Geometry-Aware Frame-Sparse Attention}, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present \textbf{ViewBench}, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.