Back to list
PolarMAE: セマンティックスクリーニングと極座標指向マスキングを活用した効率的な胎児超音波事前トレーニング
PolarMAE: Efficient Fetal Ultrasound Pre-training via Semantic Screening and Polar-Guided Masking
Translated: 2026/4/20 10:43:43
Japanese Translation
arXiv:2604.15893v1 Announce Type: new
アブストラクト:知的胎児超音波(US)解釈は産前診断において不可欠ですが、高annotateコストとオペレーター誘発変動により、無教師学習事前トレーニングは非常に有望なパラジグムです。しかし、既存の事前トレーニング手法は、US特有の特性である重症のデータ冗長性、扇状のローカリティ、そして極座標ビームフォーミングをほとんど無視しており、下流タスクにおける効果性を制限しています。これを解決するために、USイメージに特化された新しい効率的な事前トレーニングフレームワークである PolarMAE を提案します。具体的には、連続するスキャンによる冗長性を軽減するために、適応的に高価値サンプルを抽出する進化的可視セマンティックスクリーニング(PVSS)を導入し、事前トレーニングの効率を著しく向上させます。さらに、US のローカリティに対応するために、無効な暗い背景ではなく有効な音響領域にのみ焦点を当てることを強制する音響制約された領域制限(ABRC)を設計します。最後に、ビームフォーミングの先验とローカルディテールを活用し、潜在的な円状イメージリングパターンと重要な組織構造をキャッチできる Polar テクスチャ協力マスキング(PTCM)を提案します。多様なデータセットと下流解釈タスクにわたる大規模な実験において、我々の手法が強力な事前トレーニングのスケーラビリティと効率性を実証した最先端の性能を示したことを示しました。
Original Content
arXiv:2604.15893v1 Announce Type: new
Abstract: Intelligent fetal ultrasound (US) interpretation is crucial for prenatal diagnosis, but high annotation costs and operator-induced variance make unsupervised pre-training a highly promising paradigm. However, existing pre-training methods largely ignore US-specific characteristics -- severe data redundancy, fan-shaped locality, and polar coordinate beamforming -- limiting their effectiveness in downstream tasks. To address this, we propose PolarMAE, a novel and efficient pre-training framework tailored for US images. Specifically, to mitigate continuous scanning redundancy, we introduce a Progressive Visual-Semantic Screening (PVSS) that adaptively extracts high-value samples, significantly boosting pre-training efficiency. Furthermore, we design an Acoustic-Bounded Region Constraint (ABRC) to accommodate US locality, forcing the model to focus strictly on valid acoustic regions rather than invalid dark backgrounds. Finally, leveraging the beamforming prior and local details, we propose a Polar-Texture Collaborative Masking (PTCM), enabling the model to capture underlying radial imaging patterns and critical tissue structures. Extensive experiments across diverse datasets and downstream interpretation tasks demonstrate that our method achieves state-of-the-art performance with strong pre-training scalability and efficiency.