Back to list
Vista4D: 4Dポイントクラウドを用いたビデオの再撮影
Vista4D: Video Reshooting with 4D Point Clouds
Translated: 2026/4/24 19:47:24
Japanese Translation
arXiv:2604.21915v1 Announce Type: new
Abstract: 私たちは、入力ビデオとターゲットカメラを 4D ポイントクラウドに基づいてアンカーする堅牢かつ柔軟なビデオ再撮影フレームワークである Vista4D を提案します。具体的には、入力ビデオに基づき、我々の手法は異なるカメラ軌道と視点からシーンを再合成します。既存のビデオ再撮影手法は、現実世界の動的ビデオの深度推定アーティファクトに苦しむだけでなく、コンテンツの外見を保持できず、困難な新しい軌道に対して正確なカメラ制御も保てていません。我々は、静的ピクセルセグメンテーションと 4D 再構成を用いて既に見たコンテンツを明確に保存し、豊富なカメラ信号を提供する 4D に基づいたポイントクラウド表現を構築し、現実世界の推論中のポイントクラウドアーティファクトに対して堅牢性を確保するために、再構築されたマルチビュー動的データをトレーニングしました。我々の結果は、最先进の基準に対して多様なビデオとカメラパスの下で、4D 整合性、カメラ制御、そして視覚的品質が改善されたことを示しています。さらに、我々の手法は、動的シーン拡張や 4D シーン再構成などの現実世界のアプリケーションにも拡張可能です。結果、コード、そしてモデルについてはプロジェクトページをご覧ください:https://eyeline-labs.github.io/Vista4D
Original Content
arXiv:2604.21915v1 Announce Type: new
Abstract: We present Vista4D, a robust and flexible video reshooting framework that grounds the input video and target cameras in a 4D point cloud. Specifically, given an input video, our method re-synthesizes the scene with the same dynamics from a different camera trajectory and viewpoint. Existing video reshooting methods often struggle with depth estimation artifacts of real-world dynamic videos, while also failing to preserve content appearance and failing to maintain precise camera control for challenging new trajectories. We build a 4D-grounded point cloud representation with static pixel segmentation and 4D reconstruction to explicitly preserve seen content and provide rich camera signals, and we train with reconstructed multiview dynamic data for robustness against point cloud artifacts during real-world inference. Our results demonstrate improved 4D consistency, camera control, and visual quality compared to state-of-the-art baselines under a variety of videos and camera paths. Moreover, our method generalizes to real-world applications such as dynamic scene expansion and 4D scene recomposition. See our project page for results, code, and models: https://eyeline-labs.github.io/Vista4D