Back to list
arxiv_cs_cv 2026年2月10日

WristMIR: 小児尺骨腕 X 線画像の放射学レポート駆動型粗細両層領域感知検索

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

Translated: 2026/3/15 19:02:37
wristmirradiologymedical-image-retrievalcontrastive-learningpediatric-imaging

Japanese Translation

類似的骨折パターンを持つ腕の X 線画像を検出することは、臨床的に重要な手がかりが微妙であり、非常に局所化され、また重なっている解剖学的構造や変化する撮影角度によってしばしば隠蔽されているため困難です。さらに、ケースベースの医学画像検索用の大規模で高品質に注釈付けされたデータの希少さは、進歩を制限しています。当稿では、密度の高い放射学レポートと骨領域固有の局所化を活用し、手動画像レベルの注釈なしで、細粒度かつ臨床的に意味のある画像表現を学習するための小児尺骨腕 X 線画像検索枠組み「WristMIR」を導入しました。MedGemma ベースの構造化されたレポートマイニングを global(全体)および region(局所)レベルのカプション生成に使用し、事前処理された腕の画像、および遠位尺骨、遠位橈骨、橈骨茎突起の骨領域固有のクロップと組み合わせ、WristMIR は global と local のコントラストエンコーダーを共同でトレーニングし、二段階の検索プロセスを実行します:(1) 候補検査の特定のための粗粒度の global マッチング、(2) 事前に定義された解剖学的骨領域に合致する region 条件付き再ランク付けです。WristMIR は強力な視覚言語ベースラインと比較して検索性能を改善し、画像からテキストへの Recall@5 を 0.82% から 9.35% に高めています。また、その埋め込みはより強い骨折分類(AUROC 0.949、AUPRC 0.953)をもたらしています。領域感知評価において、二段階設計は検索に基づく骨折診断を著しく改善し、平均 $F_1$ を 0.568 から 0.753 に引き上げ、放射線医が検索されたケースをより臨床的に関連性があると評価し、平均スコアは 3.36 から 4.35 に上昇しました。これらの結果は、解剖学的に導かれた検索が診断推論を高め、小児筋骨系画像の臨床的意思決定をサポートする潜在的な力を示しています。ソースコードは https://github.com/quin-med-harvard-edu/WristMIR に公開されています。

Original Content

arXiv:2602.07872v1 Announce Type: new Abstract: Retrieving wrist radiographs with analogous fracture patterns is challenging because clinically important cues are subtle, highly localized and often obscured by overlapping anatomy or variable imaging views. Progress is further limited by the scarcity of large, well-annotated datasets for case-based medical image retrieval. We introduce WristMIR, a region-aware pediatric wrist radiograph retrieval framework that leverages dense radiology reports and bone-specific localization to learn fine-grained, clinically meaningful image representations without any manual image-level annotations. Using MedGemma-based structured report mining to generate both global and region-level captions, together with pre-processed wrist images and bone-specific crops of the distal radius, distal ulna, and ulnar styloid, WristMIR jointly trains global and local contrastive encoders and performs a two-stage retrieval process: (1) coarse global matching to identify candidate exams, followed by (2) region-conditioned reranking aligned to a predefined anatomical bone region. WristMIR improves retrieval performance over strong vision-language baselines, raising image-to-text Recall@5 from 0.82% to 9.35%. Its embeddings also yield stronger fracture classification (AUROC 0.949, AUPRC 0.953). In region-aware evaluation, the two-stage design markedly improves retrieval-based fracture diagnosis, increasing mean $F_1$ from 0.568 to 0.753, and radiologists rate its retrieved cases as more clinically relevant, with mean scores rising from 3.36 to 4.35. These findings highlight the potential of anatomically guided retrieval to enhance diagnostic reasoning and support clinical decision-making in pediatric musculoskeletal imaging. The source code is publicly available at https://github.com/quin-med-harvard-edu/WristMIR.