Back to list
SUG-Occ: 現実時間 3D 占有予測のための明示的なセマンティクスと不確実性を導向したスパース学習フレームワーク
SUG-Occ: An Explicit Semantics and Uncertainty Guided Sparse Learning Framework for Real-Time 3D Occupancy Prediction
Translated: 2026/3/15 16:07:07
Japanese Translation
arXiv:2601.11396v4 Announce Type: replace
摘要:自律走行がフルシーン理解へ向かいる中、3D セマンティック占有予測は、従来の検出およびセグメンテーションパラダイムを超えたvoxelレベルのセマンティクスを提供する重要な認識タスクとして登場しました。しかし、そのような高度に加工されたシーンの理解表現は、禁止的な計算とメモリオーバーヘッドを伴い、実用的なリアルタイムデプロイメントの主要な障壁となっています。この課題に対処するため、我々はSUG-Occという明示的なセマンティクスと不確実性を導向したスパース学習能動3D占有予測フレームワークを提案し、3Dシーンの固有のスパarsityを利用することで、冗長な計算を削減しつつ幾何学的およびセマンティックの完全性を維持します。具体的には、まずセマンティックおよび不確実性の事前知識を利用し、視点変換における自由空間からの射影を抑制し、幾何学的整合性を高めるために明示的な非符号距離エンコードを採用することで、構造的整合性を備えたスパースな3D表現を生み出します。次に、ハイパークロススパース畳み込みと生成アップサンプリングを介した級列スパース補完モジュールを設計し、効率的な粗から微細な推論を可能にします。最後に、オブジェクト文脈的表現 (OCR) に基づくマスクデコーダーを設計し、スパース特徴からグローバルセマンティック文脈を集約させ、軽量クエリ - 文脈相互作用を通じてvoxel単位の予測を精緻化し、体積特徴への高価な注意操作を回避します。SemanticKITTIベンチマークにおける広範な実験により、提案されたアプローチがベースラインを上回ることが示され、精度7.34%の改善と効率57.8%の向上を達成しました。
Original Content
arXiv:2601.11396v4 Announce Type: replace
Abstract: As autonomous driving moves toward full scene understanding, 3D semantic occupancy prediction has emerged as a crucial perception task, offering voxel-level semantics beyond traditional detection and segmentation paradigms. However, such a refined representation for scene understanding incurs prohibitive computation and memory overhead, posing a major barrier to practical real-time deployment. To address this, we propose SUG-Occ, an explicit Semantics and Uncertainty Guided Sparse Learning Enabled 3D Occupancy Prediction Framework, which exploits the inherent sparsity of 3D scenes to reduce redundant computation while maintaining geometric and semantic completeness. Specifically, we first utilize semantic and uncertainty priors to suppress projections from free space during view transformation while employing an explicit unsigned distance encoding to enhance geometric consistency, producing a structurally consistent sparse 3D representation. Secondly, we design an cascade sparse completion module via hyper cross sparse convolution and generative upsampling to enable efficiently coarse-to-fine reasoning. Finally, we devise an object contextual representation (OCR) based mask decoder that aggregates global semantic context from sparse features and refines voxel-wise predictions via lightweight query-context interactions, avoiding expensive attention operations over volumetric features. Extensive experiments on SemanticKITTI benchmark demonstrate that the proposed approach outperforms the baselines, achieving a 7.34/% improvement in accuracy and a 57.8\% gain in efficiency.