Back to list
arxiv_cs_ai 2026年4月24日

安全性を意識した探査による LLM ファインチューニングの強化

Secure LLM Fine-Tuning via Safety-Aware Probing

Translated: 2026/4/24 20:32:02
fine-tuninglarge-language-modelssafety-alignmentadversarial-trainingmachine-learning

Japanese Translation

arXiv:2505.16737v2 発表タイプ:クロス置き換え 摘要:大規模言語モデル(LLMs)は多岐にわたるアプリケーションにおいて顕著な成功を収めているものの、有害コンテンツを生成する能力は深刻な安全性懸念を生んでいる。安全性対齐技術は事前トレーニングや後期トレーニング時にしばしば適用されるが、最近の研究では、敵対的あるいは無害なデータに対する後のファインチューニングでもモデルの安全性が損なわれる可能性があることが示されている。本論文では、なぜ無害なデータに対するファインチューニングがそれでも安全性を劣化させるのかという基本的な問いを再検証する。安全性とタスク性能の損失空間は部分的に独立しており、タスク特有の性能を向上させる更新がそれでもモデルを無効な領域へと動かす可能性があることを示した。この洞察に基づき、ファインチューニング中のリスク軽減のための安全性を意識した探査(Safety-Aware Probing、SAP)最適化フレームワークを提案する。具体的には、SAP は対比的な安全性シグナルを使用して安全性に関連する方向性を特定し、ファインチューニング中に潜在状態の伝播を微調整する軽量プローブを最適化することで、パラメータ更新を有害な軌道から外しながらタスク特有の学習を維持する。広範な実験により、SAP は複数のモデルとタスクで一貫して安全性とユーティリティのトレードオフを改善することが示された。複数の LLM を平均したとき、SAP は標準的なファインチューニングと比較して有害スコアを大幅に削減し、強いベースラインを上回りつつ競争力のあるタスク特有の性能を維持する。さらに、SAP は有害なデータ投下、敵対的なファインチューニング、および専用ポストファインチューニング適応攻撃において強い耐性を示しており、これが LLM の安全性をファインチューニングの間に保持する効果的でスケーラブルなフレームワークであることを裏付けている。当社のコードは https://github.com/ChengcanWu/SAP で利用可能です。

Original Content

arXiv:2505.16737v2 Announce Type: replace-cross Abstract: Large language models (LLMs) have achieved remarkable success across many applications, but their ability to generate harmful content raises serious safety concerns. Although safety alignment techniques are often applied during pre-training or post-training, recent studies show that subsequent fine-tuning on adversarial or even benign data can still compromise model safety. In this paper, we revisit the fundamental question of why fine-tuning on non-harmful data may nevertheless degrade safety. We show that the safety and task-performance loss landscapes are partially decoupled, so updates that improve task-specific performance may still move the model toward unsafe regions. Based on this insight, we propose a safety-aware probing (SAP) optimization framework for mitigating safety risks during fine-tuning. Concretely, SAP uses contrastive safety signals to locate safety-correlated directions, and optimizes a lightweight probe that perturbs hidden-state propagation during fine-tuning, thereby steering parameter updates away from harmful trajectories while preserving task-specific learning. Extensive experiments show that SAP consistently improves the safety--utility tradeoff across multiple models and tasks. Averaged over multiple LLMs, SAP reduces the harmful score significantly relative to standard fine-tuning, outperforming strong baselines while maintaining competitive task-specific performance. SAP also demonstrates stronger robustness under harmful data poisoning, adversarial fine-tuning, and a dedicated post-fine-tuning adaptive attack, validating that SAP is an effective and scalable framework for preserving LLM safety during fine-tuning. Our code is available at https://github.com/ChengcanWu/SAP.