Back to list
Mamba による空間 - 周波数運動知覚によるビデオの隠れた物体検出
Mamba-based Spatio-Frequency Motion Perception for Video Camouflaged Object Detection
Translated: 2026/3/15 8:02:31
Japanese Translation
arXiv:2507.23601v2 公告型: 更新
要旨: 既存のビデオの隠れた物体検出(VCOD)手法は、主に空間的な外観に基づいて運動を認識しています。しかし、VCOD では前面と後面の高な相似性があり、そのような特徴(例:色やテクスチャ)の識別性が制限されます。最近の研究は、周波数特徴が外観の限界を補完し、かつスペクトルエネルギーの動的変化を通じて運動を認識できることを示しています。また、新しい状態空間モデルである Mamba は、直線時間の長系列モデル링能力により、フレームシーケンスにおいて効率的な運動知覚を可能にします。これに基づき、空間 - 周波数運動知覚に基づいて周波数と空間特徴を統合し、効率的かつ高精度な VCOD を実現する、可視カモウフラムベース Mamba(Vcamba)を提案します。具体的には、周波数成分の空間表現を分析することにより、成分の順序立てた重ね合わせから現れる構造進化パターンを明らかにしました。この観察に基づき、周波数領域の逐次スキャン(FSS)戦略を独自に提案し、スペクトルを展開します。FSS を利用して、適応周波数増強(AFE)モジュールは Mamba を用いてシーケンス内の因果的依存関係をモデル化し、効果的な周波数学習を可能にします。さらに、空間に基づく長距離運動知覚(SLMP)モジュールと、周波数に基づく長距離運動知覚(FLMP)モジュールを提案し、時空間および時周波数シーケンスをモデル化します。最後に、空間および周波数運動融合モジュール(SFMF)が双領域特徴を統一された運動表現に統合します。実験では、Vcamba が 2 データセットにおいて 6 の評価指標を超え、計算コストも下げて state-of-the-art の手法を凌駕していることを示し、その優位性を裏付けています。コードは以下のアドレスで利用可能です:https://github.com/BoydeLi/Vcamba。
Original Content
arXiv:2507.23601v2 Announce Type: replace
Abstract: Existing video camouflaged object detection (VCOD) methods primarily rely on spatial appearances for motion perception. However, the high foreground-background similarity in VCOD limits the discriminability of such features (e.g. color and texture). Recent studies demonstrate that frequency features can not only compensate for appearance limitations, but also perceive motion through dynamic variations in spectral energy. Meanwhile, the emerging state space model called Mamba enables efficient motion perception in frame sequences with its linear-time long-sequence modeling capability. Motivated by this, we propose Vcamba, a visual camouflage Mamba based on spatio-frequency motion perception that integrates frequency and spatial features for efficient and accurate VCOD. Specifically, by analyzing the spatial representations of frequency components, we reveal a structural evolution pattern that emerges from the ordered superposition of components. Based on this observation, we propose a unique frequency-domain sequential scanning (FSS) strategy to unfold the spectrum. Utilizing FSS, the adaptive frequency enhancement (AFE) module employs Mamba to model the causal dependencies within sequences, enabling effective frequency learning. Furthermore, we propose a space-based long-range motion perception (SLMP) module and a frequency-based long-range motion perception (FLMP) module to model spatio-temporal and frequency-temporal sequences. Finally, the space and frequency motion fusion module (SFMF) integrates dual-domain features into unified motion representation. Experiments show that Vcamba outperforms state-of-the-art methods across 6 evaluation metrics on 2 datasets with lower computation cost, confirming its superiority. Code is available at: https://github.com/BoydeLi/Vcamba.