Back to list
スケーラブルな事後不確実性の推定に基づく柔軟な密度ベースのクラスタリング
Scalable Posterior Uncertainty for Flexible Density-Based Clustering
Translated: 2026/4/20 11:08:12
Japanese Translation
arXiv:2603.03188v2 Announce Type: replace-cross
要約: 私たちは、マルチングアル後の分布と密度ベースのクラスタリングを組み合わせた不確実性の量化のための新しい枠組みを導入します。古典的なモデルベースのアプローチでは、ミックスモデルの潜在レベルでクラスタを定義されていますが、私たちはパラメトリックな形式を仮定せずに、密度生成関数としての明示的な関数論としてクラスタを扱います。密度の不確実性を特徴付けるため、モデルスコアの評価に基づく予測サンプリングスキームによってマルチングアル後のサンプルを取得します。これにより、正規化フローなどの最先端の微分密度推定者を活用でき、大規模な環境において密度サンプリングを効率的に行い、現在の GPU ハードウェアで完全に並列処理可能にします。その後、密度ベースのクラスタリングを密度ドラフトに適用することで、クラスタリング構造のマルチングアル後のサンプルを取得し、あらゆるクラスタリング関連量の原則的な推論を可能にします。推論の目標を密度関数として表現することは、この手法の収束特性の厳密な理論的分析を可能にします。私らの手法は、画像データと単細胞 RNA 配列データに適用され、GPU 互換性による計算効率と、多様なドメインにわたって意味のあるクラスタリング構造に関連する不確実性まで回収できる能力が示されました。
Original Content
arXiv:2603.03188v2 Announce Type: replace-cross
Abstract: We introduce a novel framework for uncertainty quantification in clustering that combines martingale posterior distributions with density-based clustering. Unlike classical model-based approaches, which define clusters at the latent level of a mixture model, we treat clusters as explicit functionals of the data-generating density, without assuming any specific parametric form. To characterize density uncertainty, we obtain martingale posterior samples via a predictive resampling scheme driven by model score evaluations. This allows us to leverage state-of-the-art differentiable density estimators, such as normalizing flows, making density resampling efficient in large-scale settings and fully parallelizable on modern GPU hardware. Martingale posterior samples of the clustering structure are then obtained by applying density-based clustering to the density draws, enabling principled inference on any clustering-related quantity. Casting the inference target as a density functional further enables a rigorous theoretical analysis of the procedure's convergence properties. We apply our methodology to image and single-cell RNA sequencing data, demonstrating the computational efficiency afforded by its GPU compatibility as well as its ability to recover meaningful clustering structures, with associated uncertainty, across diverse domains.