Back to list
Pooling を超えて: データ非均質性における頑健な一般化のためのマッチング
Beyond Pooling: Matching for Robust Generalization under Data Heterogeneity
Translated: 2026/3/15 13:04:15
Japanese Translation
arXiv:2602.07154v1 Announce Type: new
要約: 領域をまたいで非均質なデータセットをプールすることは表現学習における一般的な戦略ですが、単純なプーリングは分布的不均衡を拡大させ、特にゼロショット一般化が求められる設定ではバイアスを有する推定量を導く可能性があります。我々は、適応中心に対して相対的にサンプルを選択し、逐次的に表現分布を洗練させるマッチングフレームワークを提案しました。データのドメインを含めるための二重頑健性とプロペンシティスコアマッチングにより、マッチングは単純なプーリングや等比例サンプリングよりも頑健になり、混同要因であるドメイン(非均質性の主要な原因)をフィルタリングすることで効果を発揮します。理論的および実証的分析により、単純なプーリングや等比例サンプリングと異なり、マッチングは非対称なメタ分布下でもより優れた結果を示すことが証明され、これはまた非高乗分布および多峰分布を持つ現実世界の設定にも拡張されています。最も重要なのは、これらの改善がデータ非均質性と非対称性の極端な形態の一つであるゼロショット医療異常検出へと翻訳されるという点です。コードは https://github.com/AyushRoy2001/Beyond-Pooling に利用可能です。
Original Content
arXiv:2602.07154v1 Announce Type: new
Abstract: Pooling heterogeneous datasets across domains is a common strategy in representation learning, but naive pooling can amplify distributional asymmetries and yield biased estimators, especially in settings where zero-shot generalization is required. We propose a matching framework that selects samples relative to an adaptive centroid and iteratively refines the representation distribution. The double robustness and the propensity score matching for the inclusion of data domains make matching more robust than naive pooling and uniform subsampling by filtering out the confounding domains (the main cause of heterogeneity). Theoretical and empirical analyses show that, unlike naive pooling or uniform subsampling, matching achieves better results under asymmetric meta-distributions, which are also extended to non-Gaussian and multimodal real-world settings. Most importantly, we show that these improvements translate to zero-shot medical anomaly detection, one of the extreme forms of data heterogeneity and asymmetry. The code is available on https://github.com/AyushRoy2001/Beyond-Pooling.