Back to list
Picasso: 物理制約付きサンプリングを用いた包括的なシーン再構築
Picasso: Holistic Scene Reconstruction with Physics-Constrained Sampling
Translated: 2026/3/15 19:04:12
Japanese Translation
arXiv:2602.08058v1 Announce Type: new
Abstract: 遮蔽や測定ノイズが存在する環境において、センサーデータに適合する幾何学的に正確なシーン再構築は依然として物理的に誤っている可能性がある。例えば、シーンの物体の姿勢と形状を推定し、それらをシミュレーターに取り込む際、小さな誤差は物体の相互貫入や不安定な平衡状態を含む不合理な構成として現れる。これにより、デジタルツインを用いてシーンの動的挙動を予測するのが困難となり、接触豊富な行動のシミュレーションベースの計画と制御において重要な段階を阻害する。本論文では、物体の姿勢と形状推定は、シーンを包括的に推論する必要がある(各物体を個別に推論するのではなく)と提唱し、物体間の相互作用と物理的な妥当性を考慮する。この目標に向かって、私たちの第一の貢献は、幾何学、非貫入、および物理を考慮して多物体シーンの再構築を行う物理制約付き再構築パイプラインである Picasso である。Picasso は、多物体間の相互作用を推論する高速拒絶サンプリング法に頼り、推論した物体接触グラフを活用してサンプルを誘導する。第二に、私たちがオープンソースベンチマークの一部として公開する物理的妥当性を定量化する指標と共に、10 の接触豊富な現実世界のシーンを備えた地真実のアノテーション付き Picasso データセットを提案する。最後に、私たちが新たに導入したデータセットと YCB-V データセット上で Picasso を広く評価し、それは最先進の手法を大幅に凌駕し、かつ物理的に妥当であり人間直感に合致する再構築を提供することが示された。
Original Content
arXiv:2602.08058v1 Announce Type: new
Abstract: In the presence of occlusions and measurement noise, geometrically accurate scene reconstructions -- which fit the sensor data -- can still be physically incorrect. For instance, when estimating the poses and shapes of objects in the scene and importing the resulting estimates into a simulator, small errors might translate to implausible configurations including object interpenetration or unstable equilibrium. This makes it difficult to predict the dynamic behavior of the scene using a digital twin, an important step in simulation-based planning and control of contact-rich behaviors. In this paper, we posit that object pose and shape estimation requires reasoning holistically over the scene (instead of reasoning about each object in isolation), accounting for object interactions and physical plausibility. Towards this goal, our first contribution is Picasso, a physics-constrained reconstruction pipeline that builds multi-object scene reconstructions by considering geometry, non-penetration, and physics. Picasso relies on a fast rejection sampling method that reasons over multi-object interactions, leveraging an inferred object contact graph to guide samples. Second, we propose the Picasso dataset, a collection of 10 contact-rich real-world scenes with ground truth annotations, as well as a metric to quantify physical plausibility, which we open-source as part of our benchmark. Finally, we provide an extensive evaluation of Picasso on our newly introduced dataset and on the YCB-V dataset, and show it largely outperforms the state of the art while providing reconstructions that are both physically plausible and more aligned with human intuition.