Back to list
arxiv_cs_lg 2026年4月20日

Fixed Discovery Rate を超える:E-バリエルを用いた事後コンフォーマル選択

Beyond Fixed False Discovery Rates: Post-Hoc Conformal Selection with E-Variables

Translated: 2026/4/20 11:05:39
conformal-predictionfalse-discovery-ratee-variablesstatisticsmachine-learning

Japanese Translation

arXiv:2604.11305v2 Announce Type: replace **要約**: コンフォーマル選択 (CS) は、校准データを利用して、未観測結果が事前定められた最小品質要件を満たす可能性が高いテスト入力を選択し、誤検知率 (FDR) を制御する手法です。既存の手法は、データを観測する前に目標 FDR レベルを固定してしまいます。これにより、利用可能なデータに基づき、選択されるテスト入力の数と FDR のバランスを、下流のニーズや制約に応じて適応させることができません。例えば、ゲノム解析や脳画像解析において、研究者たちはテスト統計量の分布を確認し、観測された証拠の強度と利用可能な追跡リソースに基づき、候補をどのくらい積極的に追求するかの決断を行うことがあります。この限界に対処するため、本研究では「事後コンフォーマル選択 (PH-CS)」を導入します。PH-CS は、データ駆動型の誤検知比例 (FDP) 推定値を伴う候補選択集のパスを生成します。PH-CS は、ユーザーがこのパス上の任意の運転点を、ユーザー指定された効用を最大化することで選択できるようにし、選択サイズと FDR のバランスを自由に調整させます。コンフォーマル E-バリエルと E-Benjamini-Hochberg (e-BH) 手続きに着想を得た PH-CS は、有限サンプルの事後信頼性保証を提供することを証明されており、推定 FDP レベルと真正 FDP の比は平均で 1 以下と上界されるため、平均推定 FDP が、一次近似で真正 FDR の有効な上界となることを保証しています。さらに、PH-CS は一般リスクに定義された品質の制御に拡張されました。合成データおよび実際のデータセットにおける実験では、CS に比べて、ユーザー課された効用制約を一貫して満たしつつ、信頼性の高い FDP 推定値を生み出し、競争的な FDR 制御を維持できることが示されました。

Original Content

arXiv:2604.11305v2 Announce Type: replace Abstract: Conformal selection (CS) uses calibration data to identify test inputs whose unobserved outcomes are likely to satisfy a pre-specified minimal quality requirement, while controlling the false discovery rate (FDR). Existing methods fix the target FDR level before observing data, which prevents the user from adapting the balance between number of selected test inputs and FDR to downstream needs and constraints based on the available data. For example, in genomics or neuroimaging, researchers often inspect the distribution of test statistics, and decide how aggressively to pursue candidates based on observed evidence strength and available follow-up resources. To address this limitation, we introduce {post-hoc CS} (PH-CS), which generates a path of candidate selection sets, each paired with a data-driven false discovery proportion (FDP) estimate. PH-CS lets the user select any operating point on this path by maximizing a user-specified utility, arbitrarily balancing selection size and FDR. Building on conformal e-variables and the e-Benjamini-Hochberg (e-BH) procedure, PH-CS is proved to provide a finite-sample post-hoc reliability guarantee whereby the ratio between estimated FDP level and true FDP is, on average, upper bounded by $1$, so that the average estimated FDP is, to first order, a valid upper bound on the true FDR. PH-CS is extended to control quality defined in terms of a general risk. Experiments on synthetic and real-world datasets demonstrate that, unlike CS, PH-CS can consistently satisfy user-imposed utility constraints while producing reliable FDP estimates and maintaining competitive FDR control.