Back to list
選択的幾何制御を用いた LLM 安全整合の堅牢性の再考
Revisiting Robustness for LLM Safety Alignment via Selective Geometry Control
Translated: 2026/3/15 13:06:15
Japanese Translation
arXiv:2602.07340v1 発表タイプ:新
要約: 大規模言語モデルの安全整合性は、ドメインシフトおよびノイズのある評価データ下で脆弱なままです。既存の多くの堅牢整合手法は、整合データにおける不確実性に焦点を当てており、基要化に基づく目標において最適化によって生じる脆性を無視してしまっています。この論文では、最適化幾何学の観点から LLM 安全整合における堅牢性を再考し、堅牢性の破綻はデータ中心的手法 alone では解決できると主張します。我々は、整合性關鍵パラメータサブ空間に対する選択的幾何制御を通じて、最悪ケースの整合目標を強制する幾何感知的評価最適化フレームワークである ShaPO を提案します。均一の幾何制約を回避することで、ShaPO は分布シフト下における堅牢性を損なう可能性がある過度な正則化を緩和します。ShaPO は 2 つのレベルで実装されました:トークンレベルの ShaPO は確率に基づく代替最適化を安定させ、報酬レベルの ShaPO はノイズのある監督下で報酬整合的な最適化を強制します。多様な安全ベンチマークとノイズのある評価設定において、ShaPO は一般的な評価最適化手法に対して一貫して安全の堅牢性を向上させました。さらに、ShaPO はデータ堅牢な目標とスムーズに結合し、追加的な効果を上げ、提案された最適化幾何学の観点を実証的に支持しました。
Original Content
arXiv:2602.07340v1 Announce Type: new
Abstract: Safety alignment of large language models remains brittle under domain shift and noisy preference supervision. Most existing robust alignment methods focus on uncertainty in alignment data, while overlooking optimization-induced fragility in preference-based objectives. In this work, we revisit robustness for LLM safety alignment from an optimization geometry perspective, and argue that robustness failures cannot be addressed by data-centric methods alone. We propose ShaPO, a geometry-aware preference optimization framework that enforces worst-case alignment objectives via selective geometry control over alignment-critical parameter subspace. By avoiding uniform geometry constraints, ShaPO mitigates the over-regularization that can harm robustness under distribution shift. We instantiate ShaPO at two levels: token-level ShaPO stabilizes likelihood-based surrogate optimization, while reward-level ShaPO enforces reward-consistent optimization under noisy supervision. Across diverse safety benchmarks and noisy preference settings, ShaPO consistently improves safety robustness over popular preference optimization methods. Moreover, ShaPO composes cleanly with data-robust objectives, yielding additional gains and empirically supporting the proposed optimization-geometry perspective.