Back to list
Implicit Residual World Model を用いたビジョン・センチリック 4D 占有予測とプランニング
Vision-Centric 4D Occupancy Forecasting and Planning via Implicit Residual World Models
Translated: 2026/3/15 15:00:52
Japanese Translation
arXiv:2510.16729v3 Announce Type: replace
要旨: エンドツーエンドの自律走行システムは、環境を理解し予測するためにビジョン・センチリックなワールドモデルに依存する傾向が強まっています。しかし、これらのモデルにおける一般的な欠点は、未来のシーンの完全な再構成であり、これは静的な背景を余分にはがモデルすることによって大きな計算資源を消耗します。これを解決するため、私たちは IR-WM(Implicit Residual World Model)を提案します。IR-WM は、現在の状態と世界の進化をモデル化することに焦点を当てています。IR-WM はまず、視覚的观察から現在の状態を頑健な Bird's-Eye-View(BEV)表現を確立し、それ以来前のタイムステップからの BEV 特徴を強い時間的 prior として活用し、自己車両のアクションやシーン文脈に条件付けたのみで「残差」(residual)を予測します。時間の経過に伴う誤差の蓄積を軽減するために、私たちはさらに语义と動的な不一致を校正するアライメントモジュールを適用します。さらに、異なる予測・プランニングの結合スキームを調査し、ワールドモデルによって生成される暗黙的な未来状態が計画精度を有意に改善することを示しました。nuScenes ベンチマーク上で、IR-WM は 4D 占有予測および軌道計画の両方で最上位的な性能を達成しました。
Original Content
arXiv:2510.16729v3 Announce Type: replace
Abstract: End-to-end autonomous driving systems increasingly rely on vision-centric world models to understand and predict their environment. However, a common ineffectiveness in these models is the full reconstruction of future scenes, which expends significant capacity on redundantly modeling static backgrounds. To address this, we propose IR-WM, an Implicit Residual World Model that focuses on modeling the current state and evolution of the world. IR-WM first establishes a robust bird's-eye-view representation of the current state from the visual observation. It then leverages the BEV features from the previous timestep as a strong temporal prior and predicts only the "residual", i.e., the changes conditioned on the ego-vehicle's actions and scene context. To alleviate error accumulation over time, we further apply an alignment module to calibrate semantic and dynamic misalignments. Moreover, we investigate different forecasting-planning coupling schemes and demonstrate that the implicit future state generated by world models substantially improves planning accuracy. On the nuScenes benchmark, IR-WM achieves top performance in both 4D occupancy forecasting and trajectory planning.