Back to list
arxiv_cs_lg 2026年2月10日

相関構造を持つ超大次元な変数選択のためのグループ検査を利用した堅牢なアプローチ

Robust Ultra-High-Dimensional Variable Selection With Correlated Structure Using Group Testing

Translated: 2026/3/15 13:05:37
genomic-feature-selectionultra-high-dimensionalgroup-testingmachine-learningbiomarker-discovery

Japanese Translation

arXiv:2602.07258v1 発表 タイプ:新 要旨:背景:高次元ゲノムデータは、従来の特徴選択手法が特徴の独立性を仮定したり、事前に定義された経路に頼ったり、また外れ値やモデルの誤指定に敏感であることを困難としてしまう強力なグループ相関構造を示す。 手法:我々は、データ駆動の変数群を階層クラスタリングにより形成し、群内および群外 hypotheses 検定を実施し、弾性ネットまたは適応弾性ネットを使用しながら選択を洗練させる Dorfman スクリーニングフレームワークを提案する。堅牢なバリエーションは、汚染されたおよび非正規データを処理するために OGK ベースの共分散推定、ランクベースの相関、および Huber 加重回帰を統合する。 結果:シミュレーションでは、正規条件下では Dorfman-Sparse-Adaptive-EN が最良を示したが、データ汚染条件下では Robust-OGK-Dorfman-Adaptive-EN が明確な優位性を示し、古典的な Dorfman 法および競合手法を凌駕した。NSCLC 遺伝子発現データ(トラメチニブ反応)への適用では、堅牢な Dorfman 手法が最低の予測誤差を達成し、臨床的に関連する遺伝子の回復を富んできた。 結論:Dorfman フレームワークは、ゲノム特徴選択のための効率的かつ堅牢なアプローチを提供する。Robust-OGK-Dorfman-Adaptive-EN は、理想的な条件から汚染された条件まで、そして超大次元な設定におけるスケーラビリティにおいて強力な性能を示し、現代的なゲノムバイオマーカー発見に非常に適している。

Original Content

arXiv:2602.07258v1 Announce Type: new Abstract: Background: High-dimensional genomic data exhibit strong group correlation structures that challenge conventional feature selection methods, which often assume feature independence or rely on pre-defined pathways and are sensitive to outliers and model misspecification. Methods: We propose the Dorfman screening framework, a multi-stage procedure that forms data-driven variable groups via hierarchical clustering, performs group and within-group hypothesis testing, and refines selection using elastic net or adaptive elastic net. Robust variants incorporate OGK-based covariance estimation, rank-based correlation, and Huber-weighted regression to handle contaminated and non-normal data. Results: In simulations, Dorfman-Sparse-Adaptive-EN performed best under normal conditions, while Robust-OGK-Dorfman-Adaptive-EN showed clear advantages under data contamination, outperforming classical Dorfman and competing methods. Applied to NSCLC gene expression data for trametinib response, robust Dorfman methods achieved the lowest prediction errors and enriched recovery of clinically relevant genes. Conclusions: The Dorfman framework provides an efficient and robust approach to genomic feature selection. Robust-OGK-Dorfman-Adaptive-EN offers strong performance under both ideal and contaminated conditions and scales to ultra-high-dimensional settings, making it well suited for modern genomic biomarker discovery.