Back to list
arxiv_cs_cv 2026年4月20日

CTSCAN: 胸部 CT セグメンテーションにおける評価の漏洩と再現可能な患者間データ共有しないベンチマーク

CTSCAN: Evaluation Leakage in Chest CT Segmentation and a Reproducible Patient-Disjoint Benchmark

Translated: 2026/4/20 10:47:38
ctscanchest-ctmedical-segmentationdata-leakagebenchmark

Japanese Translation

arXiv:2604.15561v1 Announce Type: cross 抽象:訓練データとテストデータのパーティションが同じ研究のスライスと混合されている場合、報告される胸部 CT セグメンテーションのパフォーマンスが過大に評価される可能性があります。CTSCAN とは、患者間データ共有しない(patient-disjoint)評価において持続する結果を測定するために設計された、再現性の高い多データソース胸部 CT ベンチマークおよび研究スタックです。現在の 4 分類アサーティフは、PleThora、MedSeg SIRM、LongCIU の 89 例を集約しており、元のスライス-PNG ワークフローでは訓練、検証、テストの間でケースがほぼ完全に再使用されていることを示しました。プレイグラウンド環境を使用して、スライス混合とケース分離の両方の評価条件下で、同じ FPN plus EfficientNet-B0 の制御構成下でマルチシードプロトコルスイープを実行しました。3 つのシードと 1 つのシードあたり 12 epoch を通して、スライス混合プロトコルでは 0.6665(前景 Dice)と 0.5031(前景 IoU)に達しましたが、ケース分離プロトコルでは 0.2066(Dice)と 0.1181(IoU)に達しました。患者再使用を排除することで、前景 Dice は絶対 0.4599(相対 69.00%)、前景 IoU は絶対 0.3850(相対 76.52%)低下します。CTSCAN は、決定論的な分割マニフェスト、明示的な弱监督制御、スクリプト化されたマルチシードプロトコルスイープ、再現性の高い図形生成を含む修正されたベンチマークをパッケージ化しており、患者間データ共有しない胸部 CT 評価のための再利用可能な基礎を提供します。

Original Content

arXiv:2604.15561v1 Announce Type: cross Abstract: Reported chest CT segmentation performance can be strongly inflated when train and test partitions mix slices from the same study. We present CTSCAN, a reproducible multi-source chest CT benchmark and research stack designed to measure what survives under patient-disjoint evaluation. The current four-class artifact aggregates 89 cases from PleThora, MedSeg SIRM, and LongCIU, and we show that the original slice-PNG workflow induces near-complete case reuse across train, validation, and test. Using the playground environment, we run a multi-seed protocol sweep with the same FPN plus EfficientNet-B0 control configuration under slice-mixed and case-disjoint evaluation. Across 3 seeds and 12 epochs per seed, the slice-mixed protocol reaches 0.6665 foreground Dice and 0.5031 foreground IoU, whereas the case-disjoint protocol reaches 0.2066 Dice and 0.1181 IoU. Removing patient reuse therefore reduces foreground Dice by 0.4599 absolute (69.00% relative) and foreground IoU by 0.3850 absolute (76.52% relative). CTSCAN packages the corrected benchmark with deterministic split manifests, explicit weak-supervision controls, a scripted multi-seed protocol sweep, and reproducible figure generation, providing a reusable basis for patient-disjoint chest CT evaluation.