Back to list
MambaBack: 全スライド画像解析における局所特徴量とグローバル文脈の架橋
MambaBack: Bridging Local Features and Global Contexts in Whole Slide Image Analysis
Translated: 2026/4/20 10:42:08
Japanese Translation
arXiv:2604.15729v1 発表タイプ: new
要旨: 全スライド画像(WSI)分析は計算病理学において決定的な役割を果たし、形態学的および構造的な手がかりを様々な倍率にわたって統合することで癌診断を可能にする。マルチインスタンス学習(MIL)は WSI 分析の標準的な枠組みです。最近、自然言語処理(NLP)から起源する効率性とグローバル文脈モデリング能力によって、Mamba は MIL のバックボーンとして Transformers を圧倒する有望な候補となりつつあります。しかし、既存の Mamba ベース MIL アプローチには 3 つの重大な課題があります:(1) 1D シーケンスへの変平による 2D 空間的近接性の破乱;(2) 微細な局所細胞構造の不適切なモデル化;および (3) リソース制約の厳しいエッジデバイスでの推論中の高いメモリピーク。MambaOut などの研究は、Mamba の SSM コンポーネントが局所特徴量抽出に対して不要であることを示しており、ゲート付き CNN が十分であることを明らかにしています。WSI 分析が、自然画像に近い微細な局所特徴量抽出と、NLP に近いグローバル文脈モデリングの両方を求めていることを認識して、Mamba と MambaOut の長所を調和させる新たなハイブリッド構造化である MambaBack を提案します。まず、1D シーケンス内でのタイルの 2D 空間的近接性を保持するためにヒルベルトサンプリング戦略を提案し、モデルの空間的認識を強化します。次に、MambaOut に基づく 1D ゲート付き CNN ブロックによる局所細胞特徴量捕捉と、BiMamba2 ブロックによるグローバル文脈統合を含む階層構造を設計し、マルチスケール表現の共同改善を図ります。最後に、トレーニング中の並列処理と推論中のチャッキングストリーミング累積を可能にする非対称なチャッキングデザインを実装し、デプロイ時のピークメモリ使用量を最小限に抑えます。5 つのデータセットにおける実験結果は、MambaBack が 7 つの最前端法を凌駕することを示しています。ソースコードとデータセットは公開されています。
Original Content
arXiv:2604.15729v1 Announce Type: new
Abstract: Whole Slide Image (WSI) analysis is pivotal in computational pathology, enabling cancer diagnosis by integrating morphological and architectural cues across magnifications. Multiple Instance Learning (MIL) serves as the standard framework for WSI analysis. Recently, Mamba has become a promising backbone for MIL, overtaking Transformers due to its efficiency and global context modeling capabilities originating from Natural Language Processing (NLP). However, existing Mamba-based MIL approaches face three critical challenges: (1) disruption of 2D spatial locality during 1D sequence flattening; (2) sub-optimal modeling of fine-grained local cellular structures; and (3) high memory peaks during inference on resource-constrained edge devices. Studies like MambaOut reveal that Mamba's SSM component is redundant for local feature extraction, where Gated CNNs suffice. Recognizing that WSI analysis demands both fine-grained local feature extraction akin to natural images, and global context modeling akin to NLP, we propose MambaBack, a novel hybrid architecture that harmonizes the strengths of Mamba and MambaOut. First, we propose the Hilbert sampling strategy to preserve the 2D spatial locality of tiles within 1D sequences, enhancing the model's spatial perception. Second, we design a hierarchical structure comprising a 1D Gated CNN block based on MambaOut to capture local cellular features, and a BiMamba2 block to aggregate global context, jointly enhancing multi-scale representation. Finally, we implement an asymmetric chunking design, allowing parallel processing during training and chunking-streaming accumulation during inference, minimizing peak memory usage for deployment. Experimental results on five datasets demonstrate that MambaBack outperforms seven state-of-the-art methods. Source code and datasets are publicly available.