Back to list
欠損値を含むデータセット向けの解釈可能な一般化加積モデル (M-GAM)
Interpretable Generalized Additive Models for Datasets with Missing Values
Translated: 2026/3/15 9:03:22
Japanese Translation
arXiv:2412.02646v3 発表型: 代替
要旨: 多くの重要なデータセットは、1 つ以上の特徴量の値が欠落しているサンプルを含んでいます。このような欠損値が存在する環境において、機械学習モデルの解釈可能性を維持するのは課題です。欠損値を単一または多重に補完するアプローチは、特徴量とラベル間のマッピングを複雑化します。他方、欠損を表す指示変数に基づく推論は、スパース性を犠牲にして追加の多くの項を導入する可能性があります。我々は、0 次調和 (l0) 正規化を通じてスパース性を維持しながら欠損指示変数とその相互作用項を統合する、スパースな一般化加積モデルである M-GAM によってこれらの問題を解決しました。我々は、M-GAM が既往の手法と同程度以上の精度を提供しつつ、補完法や指示変数の単純な統合と比較してスパース性を著しく向上させることを示しました。
Original Content
arXiv:2412.02646v3 Announce Type: replace
Abstract: Many important datasets contain samples that are missing one or more feature values. Maintaining the interpretability of machine learning models in the presence of such missing data is challenging. Singly or multiply imputing missing values complicates the model's mapping from features to labels. On the other hand, reasoning on indicator variables that represent missingness introduces a potentially large number of additional terms, sacrificing sparsity. We solve these problems with M-GAM, a sparse, generalized, additive modeling approach that incorporates missingness indicators and their interaction terms while maintaining sparsity through l0 regularization. We show that M-GAM provides similar or superior accuracy to prior methods while significantly improving sparsity relative to either imputation or naive inclusion of indicator variables.