Back to list
arxiv_cs_cv 2026年2月10日

FADE:スパース LoRA と自己 distillation を用いた選択的忘却

FADE: Selective Forgetting via Sparse LoRA and Self-Distillation

Translated: 2026/3/15 17:04:23
machine-unlearningdiffusion-modelsloraself-distillationdata-privacy

Japanese Translation

arXiv:2602.07058v1 発表型:new 要約:機械的忘却(Machine Unlearning)は、訓練されたモデルから特定のデータや概念の影響を除去しながらも全体の性能を維持する技術であり、データ保護規制や責任ある AI 実践においてますます要求される能力です。最新の進展にもかかわらず、テキストから画像を生成する拡散モデルにおける忘却はまだ課題が多く、高い計算コストと、効果的な忘却と非関連概念の保持のバランスを取る難しさが存在します。FADE(Fast Adapter for Data Erasure)という 2 段階の忘却手法を導入し、これはパラメータ局所化と自己 distillation を組み合わせた画像生成用方法です。FADE はまず、基準勾配を用いたサリエンシ分析方法で忘却セットに対して責任あるパラメータを特定し、スパース LoRA アダプターを通じて更新を制約することで、軽量かつ局所された変更を実現します。第 2 段階では、FADE はユーザー定義のサブrogate を用いて忘却された概念をオーバーライトし、保持データにおける動作を維持する自己 distillation 的目的を適用します。得られるアダプターはメモリ効率的で可逆性があり、実行時において融合または削除が可能であり、プロダクションシステムにおける柔軟な展開を可能にします。私たちは FADE を UnlearnCanvas ベンチマークで評価し、Imagenette、Labeled Faces in the Wild、AtharvaTaras Dog Breeds Dataset、SUN Attributes データセット上でアビレーション研究を実施し、忘却と保持のトレードオフに細粒度の制御を可能にする state-of-the-art の忘却性能を示しました。われらの結果は、FADE がさまざまなドメインにおいて強い概念削除と高い保持率を実現することを示しており、これが拡散ベースの画像生成モデルにおける選択的忘却に適したソリューションであるとしています。

Original Content

arXiv:2602.07058v1 Announce Type: new Abstract: Machine Unlearning aims to remove the influence of specific data or concepts from trained models while preserving overall performance, a capability increasingly required by data protection regulations and responsible AI practices. Despite recent progress, unlearning in text-to-image diffusion models remains challenging due to high computational costs and the difficulty of balancing effective forgetting with retention of unrelated concepts. We introduce FADE (Fast Adapter for Data Erasure), a two-stage unlearning method for image generation that combines parameter localization with self-distillation. FADE first identifies parameters most responsible for the forget set using gradient-based saliency and constrains updates through sparse LoRA adapters, ensuring lightweight, localized modifications. In a second stage, FADE applies a self-distillation objective that overwrites the forgotten concept with a user-defined surrogate while preserving behavior on retained data. The resulting adapters are memory-efficient, reversible, and can be merged or removed at runtime, enabling flexible deployment in production systems. We evaluated FADE on the UnlearnCanvas benchmark and conducted ablation studies on Imagenette, Labeled Faces in the Wild, AtharvaTaras Dog Breeds Dataset, and SUN Attributes datasets, demonstrating State-of-the-Art unlearning performance with fine-grained control over the forgetting-retention trade-off. Our results demonstrate that FADE achieves strong concept erasure and high retainability across various domains, making it a suitable solution for selective unlearning in diffusion-based image generation models.