Back to list
CoHiRF: スケーラビリティ限界を超える解釈可能なクラスタリングのための階層的コンセンサス
CoHiRF: Hierarchical Consensus for Interpretable Clustering Beyond Scalability Limits
Translated: 2026/3/15 9:03:38
Japanese Translation
arXiv:2502.00380v3 Announce Type: replace
本研究では、既存のクラスタリング手法が通常のパフォーマンス・メモリ制約を超えて動作できるようにする階層的コンセンサスフレームワークである CoHiRF(Consensus Hierarchical Random Features)を導入します。CoHiRF はメタアルゴリズムであり、基底クラスタリング手法によって生成されたラベル割り当てのみを入力とし、その目的関数、最適化手順、または幾何学的仮定を変更せずに動作します。このアルゴリズムは、基底的な手法を多次元低次元特性ビューまたは確率的実現に対して繰り返して適用し、コンセンサスを通じて一致を強制し、代表データに基づく収縮によって問題の規模を段階的に削減します。重心法、核法、密度法、グラフ法を含む多様なシミュレーションおよび実世界実験において、CoHiRF が高次元ノイズへの耐性向上、確率的変動下的安定性向上、および基底手法単独では不可避となる領域のスケーラビリティ向上であることを示しました。また、階層的コンセンサスが有益となる状況を経験的に評価し、再現可能なラベル間の関係性と代表データに基づく収縮との互換性の役割を明確にしました。平面部分割り分けを超えて、CoHiRF は明確なクラスター融合階層を提供し、クラスタリング構造のマルチレゾリューションかつ解釈可能な視点を提供します。これらの結果は、階層的コンセンサスを大規模クラスタリングのための実践的で柔軟なツールとして位置づけ、既存の手法の適用範囲を底辺の振る舞いを変えずに拡張します。
Original Content
arXiv:2502.00380v3 Announce Type: replace
Abstract: We introduce CoHiRF (Consensus Hierarchical Random Features), a hierarchical consensus framework that enables existing clustering methods to operate beyond their usual computational and memory limits. CoHiRF is a meta-algorithm that operates exclusively on the label assignments produced by a base clustering method, without modifying its objective function, optimization procedure, or geometric assumptions. It repeatedly applies the base method to multiple low-dimensional feature views or stochastic realizations, enforces agreement through consensus, and progressively reduces the problem size via representative-based contraction. Across a diverse set of synthetic and real-world experiments involving centroid-based, kernel-based, density-based, and graph-based methods, we show that CoHiRF can improve robustness to high-dimensional noise, enhance stability under stochastic variability, and enable scalability to regimes where the base method alone is infeasible. We also provide an empirical characterization of when hierarchical consensus is beneficial, highlighting the role of reproducible label relations and their compatibility with representative-based contraction. Beyond flat partitions, CoHiRF produces an explicit Cluster Fusion Hierarchy, offering a multi-resolution and interpretable view of the clustering structure. Together, these results position hierarchical consensus as a practical and flexible tool for large-scale clustering, extending the applicability of existing methods without altering their underlying behavior.