Back to list
arxiv_cs_ai 2026年4月24日

CAP: LLMs における忘却ための可控对齐提示 (Controllable Alignment Prompting for Unlearning in LLMs)

CAP: Controllable Alignment Prompting for Unlearning in LLMs

Translated: 2026/4/24 20:25:39
llmunlearningreinforcement-learningprompt-engineeringalignment

Japanese Translation

arXiv:2604.21251v1 発表 種類:横断研究 概要:フィルタリングされていないコーパスで訓練された大規模言語モデル(LLM)には、機密情報の維持という内生的なリスクが存在し、規制準拠と倫理的安全性のために選択的な知識忘却が必要となります。しかし、既存のパラメータ変更方法は根本的な制約に直面しており、高い計算コスト、制御不能な忘却の境界、そしてモデルウェイトへの厳密なアクセス依存性を抱えています。これらの制約は、クローズドソースモデルの実用性を損なうのみならず、現在の侵襲的でない代替手法は体系的ではなく経験則に依存しています。これらの課題に対処するために、我々は提示する「Controllable Alignment Prompting for Unlearning (CAP)」フレームワーク、すなわちエンドツーエンドの提示駆動型忘却パラダイムを提案します。CAP は、強化学習を通じて学習可能な提示最適化プロセスに忘却を分離し、提示ジェネレータが LLM と協力して目標知識を抑制しつつ一般的能力を保持選択的に保存します。このアプローチは、提示の撤回を通じて可逆的な知識復元を可能にし、広範な実験は CAP がモデルパラメータを更新することなしに精密かつ制御された忘却を実現し、過去の方法の転移性制限を克服する動的対齐機構を確立することが示されました。

Original Content

arXiv:2604.21251v1 Announce Type: cross Abstract: Large language models (LLMs) trained on unfiltered corpora inherently risk retaining sensitive information, necessitating selective knowledge unlearning for regulatory compliance and ethical safety. However, existing parameter-modifying methods face fundamental limitations: high computational costs, uncontrollable forgetting boundaries, and strict dependency on model weight access. These constraints render them impractical for closed-source models, yet current non-invasive alternatives remain unsystematic and reliant on empirical experience. To address these challenges, we propose the Controllable Alignment Prompting for Unlearning (CAP) framework, an end-to-end prompt-driven unlearning paradigm. CAP decouples unlearning into a learnable prompt optimization process via reinforcement learning, where a prompt generator collaborates with the LLM to suppress target knowledge while preserving general capabilities selectively. This approach enables reversible knowledge restoration through prompt revocation. Extensive experiments demonstrate that CAP achieves precise, controllable unlearning without updating model parameters, establishing a dynamic alignment mechanism that overcomes the transferability limitations of prior methods.