Back to list
arxiv_cs_cv 2026年4月20日

拡散確率モデルの SNR-t バイアスを明らかにする

Elucidating the SNR-t Bias of Diffusion Probabilistic Models

Translated: 2026/4/20 10:44:36
diffusion-modelssignal-to-noise-ratiogenerative-aideep-learningimage-synthesis

Japanese Translation

arXiv:2604.16044v1 発表タイプ:新規 要約:拡散確率モデルは、広範な生成タスクにおいて顕著な性能を示してきました。しかし、私たちはこれらのモデルがしばしば信号対雑音比ーステップ(SNR-t)バイアスに苦しんでいることを観察しました。このバイアスとは、推論段階において、除噪サンプルの SNR とそれに対応するステップの間に見られる不整合を指します。具体的には、訓練段階ではサンプルの SNR がステップと厳密に結合されていますが、推論段階ではこの対応関係が破壊され、誤差の蓄積を引き起こし、生成品質を低下させます。我々はこの現象を裏付ける包括的な実証的証拠と理論的分析を提供し、SNR-t バイアスを軽減する単純でありながら効果的な微分補正法を提案しました。拡散モデルは通常、逆向きの除噪プロセスを通じて低周波成分を先に再構築し、高周波の詳細に焦点を当てることを認識して、サンプルを各種の周波数成分に分解し、各成分に対して個別に微分補正を適用します。大規模な実験では、我々のアプローチが様々な解像度のデータセットにおいて複数の拡散モデル(IDDPM, ADM, DDIM, A-DPM, EA-DPM, EDM, PFGM++, FLUX)の生成品質を大幅に向上させ、計算コストの増加は微細であることを示しています。コードは https://github.com/AMAP-ML/DCW で利用可能です。

Original Content

arXiv:2604.16044v1 Announce Type: new Abstract: Diffusion Probabilistic Models have demonstrated remarkable performance across a wide range of generative tasks. However, we have observed that these models often suffer from a Signal-to-Noise Ratio-timestep (SNR-t) bias. This bias refers to the misalignment between the SNR of the denoising sample and its corresponding timestep during the inference phase. Specifically, during training, the SNR of a sample is strictly coupled with its timestep. However, this correspondence is disrupted during inference, leading to error accumulation and impairing the generation quality. We provide comprehensive empirical evidence and theoretical analysis to substantiate this phenomenon and propose a simple yet effective differential correction method to mitigate the SNR-t bias. Recognizing that diffusion models typically reconstruct low-frequency components before focusing on high-frequency details during the reverse denoising process, we decompose samples into various frequency components and apply differential correction to each component individually. Extensive experiments show that our approach significantly improves the generation quality of various diffusion models (IDDPM, ADM, DDIM, A-DPM, EA-DPM, EDM, PFGM++, and FLUX) on datasets of various resolutions with negligible computational overhead. The code is at https://github.com/AMAP-ML/DCW.