Back to list
ThermoSplat: 機能調節と幾何学的分離を備えたクロスモーダル 3D ギャウジアン Splatter
ThermoSplat: Cross-Modal 3D Gaussian Splatting with Feature Modulation and Geometry Decoupling
Translated: 2026/3/15 16:07:26
Japanese Translation
arXiv:2601.15897v2 発表タイプ: 置換
要約:RGB データと熱赤外線データを組み合わせたマルチモーダルシーン復元は、多様な照明条件と気象条件での頑健な環境認識において不可欠である。しかし、マルチスペクトルシナリオへの 3D ギャウジアン Splatter (3DGS) の拡張は依然として挑戦的で、現在の手法はマルチモーダルデータの補完的信息を十分に活用するのが困難である。これらへの対処法としては、クロスモーダル相関を無視する傾向にある機構や、スペクトラム間の複雑な構造相関と物理的不整合を適応的に処理できず失敗する共有表現に依存するものが一般的である。これらの制限に対処するために、我々はアクティブな機能調節と適応的な幾何学的分離を通じて、深いスペクトル認識による復元を可能にする新しいフレームワークである ThermoSplat を提案する。まず、我々は熱構造的事先条件に共有の潜在特性を動的に条件付けるスペクトル認識適応的調節を導入し、これは信頼性の高いクロスモーダル幾何学的示唆を用いて可視テクスチャの合成を効果的に導き出す。次に、モーダル特有の幾何学的一貫性の欠如に対応するため、我々は独立した不透明度オフセットを学習し、熱枝に対して独立したリステライゼーションパスを実行するモーダル適応的幾何学的分離スキームを提案する。さらに、明示的な球調調波と暗号化されたニューラルデコーディングを統合し、意味の整合性と高周波数詳細の両方を保つためのハイブリッドレンダリングパイプラインを採用している。RGBT-Scenes データセットでの大規模な実験により、ThermoSplat は可視スペクトラムおよび熱スペクトラムの両方で最先端のレンダリング品質を達成していることが示された。
Original Content
arXiv:2601.15897v2 Announce Type: replace
Abstract: Multi-modal scene reconstruction integrating RGB and thermal infrared data is essential for robust environmental perception across diverse lighting and weather conditions. However, extending 3D Gaussian Splatting (3DGS) to multi-spectral scenarios remains challenging. Current approaches often struggle to fully leverage the complementary information of multi-modal data, typically relying on mechanisms that either tend to neglect cross-modal correlations or leverage shared representations that fail to adaptively handle the complex structural correlations and physical discrepancies between spectrums. To address these limitations, we propose ThermoSplat, a novel framework that enables deep spectral-aware reconstruction through active feature modulation and adaptive geometry decoupling. First, we introduce a Spectrum-Aware Adaptive Modulation that dynamically conditions shared latent features on thermal structural priors, effectively guiding visible texture synthesis with reliable cross-modal geometric cues. Second, to accommodate modality-specific geometric inconsistencies, we propose a Modality-Adaptive Geometric Decoupling scheme that learns independent opacity offsets and executes an independent rasterization pass for the thermal branch. Additionally, a hybrid rendering pipeline is employed to integrate explicit Spherical Harmonics with implicit neural decoding, ensuring both semantic consistency and high-frequency detail preservation. Extensive experiments on the RGBT-Scenes dataset demonstrate that ThermoSplat achieves state-of-the-art rendering quality across both visible and thermal spectrums.