Back to list
SatSAM2: 衛星画像における運動制約付きビデオオブジェクトトラッキングへの提示可能な SAM2 とカルマン事前情報の利用
SatSAM2: Motion-Constrained Video Object Tracking in Satellite Imagery using Promptable SAM2 and Kalman Priors
Translated: 2026/4/24 19:50:43
Japanese Translation
arXiv:2511.18264v3 告知タイプ:置換
サマリー:既存の衛星ビデオトラッキング方法では、汎用性が不足しており、満足できる性能を達成するにはシナリオ固有のトレーニングが必要であり、隠蔽の発生時にトラッキング損失に陥る傾向があります。これらの課題に対処するため、SatSAM2(ゼロショット衛星ビデオトラッカー)を提案します。SatSAM2 は SAM2 に構築されており、基礎モデルをリモートセンシングドメインに適応させるように設計されています。SatSAM2 は、2 つの主要モジュールを導入しました:時間運動情報を活用しドリフトを抑制する「カルマンフィルターに基づく制約付き運動モジュール(KFCMM)」、そして運動ダイナミクスおよび信頼性を基にトラッキング状態を規制する「運動制約付き状態機械(MCSM)」です。大規模評価をサポートするために、1,500 以上のシーケンスと 157 万画素の注釈フレームを含む多様な視点、照度、隠蔽条件を含む合成ベンチマーク「マトリックスシティ ビデオオブジェクトトラッキング(MVOT)」を提案しました。SatSAM2 は、2 つの衛星トラッキングベンチマークと MVOT において、SAM2 やそのバリエーションを含む従来のトラッカーおよび基礎モデルベースのトラッカーを優越します。特に OOTB データセットでは、最先端手法から 5.84% の AUC 改善を達成しました。我々のコードとデータセットは研究を促進するため公衆向けに公開されます。
Original Content
arXiv:2511.18264v3 Announce Type: replace
Abstract: Existing satellite video tracking methods often struggle with generalization, requiring scenario-specific training to achieve satisfactory performance, and are prone to track loss in the presence of occlusion. To address these challenges, we propose SatSAM2, a zero-shot satellite video tracker built on SAM2, designed to adapt foundation models to the remote sensing domain. SatSAM2 introduces two core modules: a Kalman Filter-based Constrained Motion Module (KFCMM) to exploit temporal motion cues and suppress drift, and a Motion-Constrained State Machine (MCSM) to regulate tracking states based on motion dynamics and reliability. To support large-scale evaluation, we propose MatrixCity Video Object Tracking (MVOT), a synthetic benchmark containing 1,500+ sequences and 157K annotated frames with diverse viewpoints, illumination, and occlusion conditions. Extensive experiments on two satellite tracking benchmarks and MVOT show that SatSAM2 outperforms both traditional and foundation model-based trackers, including SAM2 and its variants. Notably, on the OOTB dataset, SatSAM2 achieves a 5.84% AUC improvement over state-of-the-art methods. Our code and dataset will be publicly released to encourage further research.