Back to list
MGDA-Decoupled: DPO ベースの LLM 対齐に向けた幾何学的な多目標最適化
MGDA-Decoupled: Geometry-Aware Multi-Objective Optimisation for DPO-based LLM Alignment
Translated: 2026/4/24 19:59:56
Japanese Translation
arXiv:2604.20685v1 Announce Type: new
Abstract: 大規模言語モデル(LLM)を望ましい人類の価値に合わせるには、有用性、真実性、無害性など、互いに矛盾する可能性がある複数の目標を調整する必要があります。これは多目標最適化の課題を提示します。多くの対齐パイプラインは、これらの目標の固定的なスカラー化に基づいており、これにより最適化が困難または少数派の目標がシステム的に低評価されるための手続き的不公平を導入する可能性があります。より公平なトレードオフを促進するために、私たちは、各目標の収束ダイナミクスを明確に考慮しながら共有下降方向を見つける幾何学的多目標最適化アルゴリズムである MGDA-Decoupled を提案しました。従来の手法(強化学習に依存する GAPO や明示的な報酬モデルに依存する MODPO など)とは対照的に、我々のアプローチは軽量の直接対照最適化(DPO)パラダイム内で完全に動作します。UltraFeedback データセット上の実験では、幾何学的な手法(特に MGDA-Decoupled)が金メダルレスポンスに対する最大の勝率を、全体および各目標において達成したことを示しました。
Original Content
arXiv:2604.20685v1 Announce Type: new
Abstract: Aligning large language models (LLMs) to desirable human values requires balancing multiple, potentially conflicting objectives such as helpfulness, truthfulness, and harmlessness, which presents a multi-objective optimisation challenge. Most alignment pipelines rely on a fixed scalarisation of these objectives, which can introduce procedural unfairness by systematically under-weighting harder-to-optimise or minority objectives. To promote more equitable trade-offs, we introduce MGDA-Decoupled, a geometry-based multi-objective optimisation algorithm that finds a shared descent direction while explicitly accounting for each objective's convergence dynamics. In contrast to prior methods that depend on reinforcement learning (e.g., GAPO) or explicit reward models (e.g., MODPO), our approach operates entirely within the lightweight Direct Preference Optimisation (DPO) paradigm. Experiments on the UltraFeedback dataset show that geometry-aware methods -- and MGDA-Decoupled in particular -- achieve the highest win rates against golden responses, both overall and per objective.