Back to list
PLAF: Pixel-Wise Language-Aligned Feature Extraction for Efficient 3D Scene Understanding
PLAF: Pixel-wise Language-Aligned Feature Extraction for Efficient 3D Scene Understanding
Translated: 2026/4/20 10:42:28
Japanese Translation
arXiv:2604.15770v1 Announce Type: new
Abstract: 正確なオープンバocabular(語彙なし)3D シーン理解には、言語に整合性を持ち、画素レベルで空間的に正確であると同時に、3D 空間へ拡張可能であるという必須の条件を満たすセマンティック表現が必要です。しかし、既存の表現手法はこれら要件を同時に満たすことに困難を覚えていますし、画素単位のセマンティクスを 3D へ稠密に伝播させることは、大規模シーンにおいて大規模な冗長性を生み出し、効率的なストレージやクエリの不可能となります。これらの課題に対処するため、私たちは稠密で正確なセマンティックな整合性を 2D 領域で維持しつつ、オープンバocabular(語彙なし)の表現力を損なわない extit{PLAF}(Pixel-wise Language-Aligned Feature extraction)というフレームワークを提案します。この表現に基づき、さらに 2D および 3D 両方の領域の冗長性を大幅に削減する効率的なセマンティックストレージとクエリングスキームを設計しました。実験結果は、 extit{PLAF} が正確かつ効率的なオープンバocabular 3D シーン理解のための強力なセマンティック基盤を提供することを示しています。コードは https://github.com/RockWenJJ/PLAF に公開されています。
Original Content
arXiv:2604.15770v1 Announce Type: new
Abstract: Accurate open-vocabulary 3D scene understanding requires semantic representations that are both language-aligned and spatially precise at the pixel level, while remaining scalable when lifted to 3D space. However, existing representations struggle to jointly satisfy these requirements, and densely propagating pixel-wise semantics to 3D often results in substantial redundancy, leading to inefficient storage and querying in large-scale scenes. To address these challenges, we present \emph{PLAF}, a Pixel-wise Language-Aligned Feature extraction framework that enables dense and accurate semantic alignment in 2D without sacrificing open-vocabulary expressiveness. Building upon this representation, we further design an efficient semantic storage and querying scheme that significantly reduces redundancy across both 2D and 3D domains. Experimental results show that \emph{PLAF} provides a strong semantic foundation for accurate and efficient open-vocabulary 3D scene understanding. The codes are publicly available at https://github.com/RockWenJJ/PLAF.