Back to list
arxiv_cs_lg 2026年4月20日

Online Distributionally Robust LLM Alignment via Regression to Relative Reward

Online Distributionally Robust LLM Alignment via Regression to Relative Reward

Translated: 2026/4/20 11:03:47
reinforcement-learninglarge-language-modelsdistributionally-robust-optimizationrlhfalignment

Japanese Translation

arXiv:2509.19104v2 Announce Type: replace 要約:Human Feedback を活用した強化学習(RLHF)は、大規模言語モデル(LLM)が人間の意図に沿うように調整するために不可欠なものとなっています。しかし、既存のオフライン RLHF アプローチは、過学習によって精度が低下し、トレーニング中に観察された推奨される振る舞いから外れることで、過最適化の弊害に悩まれています。分布強固最適化(DRO)は自然な解決策ですが、既存の DRO-DPO モデルはサンプル非効率であり、多様な好みを無視し、脆弱な経験則に依存しています。ここでは、型 $p$ ウォーターステイン距離、クラー(KL)距離、および $\χ^2$ 不確実性をセットを用いた、強対称性が各更新を相対報酬回帰に削減し、PPO スタイルのクリッピングや価値ネットワークなしで REBEL のスケーラビリティを保つ、堅牢なオンライン REBEL 更新を備えたファミリーを「DRO-REBEL」として提案します。線形報酬、対数線形ポリシー、および標準的コーバレッジ条件のもと、平面的パラメータ誤差の $\ΕO(\sqrt{d/n})$ bound を証明し、以前の DRO-DPO 解析よりも鋭い定数を持ち、好みのシフト下における DRO ベースの整列における最初のパラメトリック $\ΕO(d/n)$ ゼロ率を与え、健全な状態における非強固な RLHF と一致させます。各分岐は、勾配正則化(ウォーターステイン)、重要性サンプリング(KL)、および 1 次元対偶解($\χ^2$)を有する実用的な SGD ベースアルゴリズムに変換できます。感情の整列、ArmoRM 多目的ベンチマーク、および HH-Alignment において、DRO-REBEL は見えない好みミックス、モデルサイズ、データセットスケールにおいて、以前のアプローチが強固または非強固なベースラインを凌駕しました。

Original Content

arXiv:2509.19104v2 Announce Type: replace Abstract: Reinforcement Learning with Human Feedback (RLHF) has become crucial for aligning Large Language Models (LLMs) with human intent. However, existing offline RLHF approaches suffer from overoptimization, where language models degrade by overfitting inaccuracies and drifting from preferred behaviors observed during training. Distributionally robust optimization (DRO) is a natural solution, but existing DRO-DPO methods are sample-inefficient, ignore heterogeneous preferences, and lean on brittle heuristics. We introduce \emph{DRO-REBEL}, a family of robust online REBEL updates built on type-$p$ Wasserstein, Kullback-Leibler (KL), and $\chi^2$ ambiguity sets. Strong duality reduces each update to a relative-reward regression, retaining REBEL's scalability without PPO-style clipping or value networks. Under linear rewards, log-linear policies, and a standard coverage condition, we prove $\widetilde{O}(\sqrt{d/n})$ bounds on squared parameter error, with sharper constants than prior DRO-DPO analyses, and give the first parametric $\widetilde{O}(d/n)$ rate for DRO-based alignment under preference shift, matching non-robust RLHF in benign regimes. Each divergence yields a tractable SGD-based algorithm: gradient regularization for Wasserstein, importance weighting for KL, and a 1-D dual solve for $\chi^2$. On Emotion Alignment, the ArmoRM multi-objective benchmark, and HH-Alignment, DRO-REBEL outperforms prior robust and non-robust baselines across unseen preference mixtures, model sizes, and dataset scales.