Back to list
3D 理解の強化:点基盤 VLM における幾何学的報酬の Creditable 割り当てによる解決策
Reinforcing 3D Understanding in Point-VLMs via Geometric Reward Credit Assignment
Translated: 2026/4/24 19:41:34
Japanese Translation
arXiv:2604.21160v1 Announce Type: new
Abstract: Point-Vision-Language モデルは、エボイドメントしたエージェントに実行可能な空間推理を付与することを目指していますが、予測される 3D 構造が観測された 2D 現実と矛盾する幾何学的幻覚に陥るケースが頻繁にあります。本研究では、この失敗の主な原因を表現のボトルネックではなく、少数の幾何学的トークンが雑音の多いシークエンスレベルの報酬に圧せいられるような補強学習の構造的な不一致だと特定しました。この因果的な希薄化を解決するために、我々は広範な監視を分野固有の信号に分離し、それらを責任あるトークン区画にのみ送信する「幾何学的報酬 Creditable 割り当て」フレームワークを提案しました。このメカニズムは曖昧なフィードバックを正確な勾配更新に変換し、一般的なポリシー最適化をターゲット指向的な構造整合へ転換させます。さらに、物理的制約を内包する再投影一貫性項を採用し、これは異種間検証器として物理的に不可能な幾何学を罰する役割を果たします。ShapeNetCore から派生した調整されたベンチマーク上で検証された我々のアプローチは、信頼性のギャップを埋めるために 3D KPA を 0.64 から 0.93 に向上させ、3D ボーリングボックスの交差連合を 0.686 に、再投影一貫性スコアを 0.852 に引き上げました。極めて重要なのは、これらの利点を実現しつつも堅牢な 2D ロケーション性能を維持したことであり、これは推測可能なテキスト出力から物理的に検証可能な空間予測への意味のある一歩を踏んだことを示しています。
Original Content
arXiv:2604.21160v1 Announce Type: new
Abstract: Point-Vision-Language Models promise to empower embodied agents with executable spatial reasoning, yet they frequently succumb to geometric hallucination where predicted 3D structures contradict the observed 2D reality. We identify a key cause of this failure not as a representation bottleneck but as a structural misalignment in reinforcement learning, where sparse geometric tokens are drowned out by noisy and broadcasted sequence-level rewards. To resolve this causal dilution, we propose Geometric Reward Credit Assignment, a framework that disentangles holistic supervision into field-specific signals and routes them exclusively to their responsible token spans. This mechanism transforms vague feedback into precise gradient updates and effectively turns generic policy optimization into targeted structural alignment. Furthermore, we internalize physical constraints via a Reprojection-Consistency term which serves as a cross-modal verifier to penalize physically impossible geometries. Validated on a calibrated benchmark derived from ShapeNetCore, our approach bridges the reliability gap by boosting 3D KPA from 0.64 to 0.93, increasing 3D bounding box intersection over union to 0.686, and raising reprojection consistency scores to 0.852. Crucially, these gains are achieved while maintaining robust 2D localization performance, marking a meaningful step from plausible textual outputs toward physically verifiable spatial predictions.