Back to list
Efficient-SAM2: 物体意識的な視覚エンコーディングとメモリ検索による SAM2 の加速
Efficient-SAM2: Accelerating SAM2 with Object-Aware Visual Encoding and Memory Retrieval
Translated: 2026/3/15 19:05:25
Japanese Translation
arXiv:2602.08224v1 発表 タイプ:新
摘要:Segment Anything Model 2(SAM2)はビデオオブジェクトセグメンテーションタスクにおいて優れた性能を示していますが、計算負荷の重さがリアルタイムビデオ処理への応用を妨げています。SAM2 の効率化に向けた試みは存在しますが、多くは軽量なバックボーンの再訓練に焦点を当てており、トレーニング後の加速への探索は限られていました。本論文では、SAM2 が生物学的視覚のように疎な認識パターンを示すことが観察され、これは余分な計算を排除し加速する機会を提供します。具体的には:i) マスクデコーダではアテンションは主に前景オブジェクトに焦点を当てているが、前期段階の画像エンコーダではアテンション範囲が広くなり、背景領域に対する不必要な計算が行われている。ii) メモリバンクでは、各フレームに対して記憶アテンションに大きく貢献するトークンのサブセットのみが少なく、顕著な領域は時間的な一貫性を示し、フルトークン計算が余分である。これらの洞察に基づき、我々はタスクに関与しない計算を排除しながらオブジェクト領域に適応的に焦点を当てることで推論効率を大幅に向上させる Efficient-SAM2 を提案します。具体的には、画像エンコーダに対して、前期フレームのデコーダからの一貫性と顕著性のヒントを活用して背景領域を軽量なショートカット分岐へルートする、ウィンドゥレベルの計算配分機構である物体意識的なスパースウィンドゥルーティング(SWR)を提案しました。さらに、メモリアテンションに対して、各フレームの顕著なメモリトークンのみ計算に参加させ、その顕著性パターンを最初の記憶から再利用する、物体意識的なスパースメモリ検索(SMR)を提案しました。追加のパラメータや最小限のトレーニングオーバーヘッドにおいて、Efficient-SAM2 は SAM2.1-L モデルで 1.68 倍の高速化を達成し、SA-V テストセットで精度が 1.0% 低下するのみです。
Original Content
arXiv:2602.08224v1 Announce Type: new
Abstract: Segment Anything Model 2 (SAM2) shows excellent performance in video object segmentation tasks; however, the heavy computational burden hinders its application in real-time video processing. Although there have been efforts to improve the efficiency of SAM2, most of them focus on retraining a lightweight backbone, with little exploration into post-training acceleration. In this paper, we observe that SAM2 exhibits sparse perception pattern as biological vision, which provides opportunities for eliminating redundant computation and acceleration: i) In mask decoder, the attention primarily focuses on the foreground objects, whereas the image encoder in the earlier stage exhibits a broad attention span, which results in unnecessary computation to background regions. ii) In memory bank, only a small subset of tokens in each frame contribute significantly to memory attention, and the salient regions exhibit temporal consistency, making full-token computation redundant. With these insights, we propose Efficient-SAM2, which promotes SAM2 to adaptively focus on object regions while eliminating task-irrelevant computations, thereby significantly improving inference efficiency. Specifically, for image encoder, we propose object-aware Sparse Window Routing (SWR), a window-level computation allocation mechanism that leverages the consistency and saliency cues from the previous-frame decoder to route background regions into a lightweight shortcut branch. Moreover, for memory attention, we propose object-aware Sparse Memory Retrieval (SMR), which allows only the salient memory tokens in each frame to participate in computation, with the saliency pattern reused from their first recollection. With negligible additional parameters and minimal training overhead, Efficient-SAM2 delivers 1.68x speedup on SAM2.1-L model with only 1.0% accuracy drop on SA-V test set.