Back to list
バイアスのある AI フードと整合性を高めるための統計的枠組み
A Statistical Framework for Alignment with Biased AI Feedback
Translated: 2026/3/15 8:02:58
Japanese Translation
arXiv:2602.08259v1 Announce Type: cross
要約: 現代の整合性パイプラインは、高価な人間好意ラベルを大規模言語モデル(LLM-as-Judge)の評価に置き換えつつあります。しかし、AI ラベルは質の高い人間フィードバックデータセットに比べて系統的バイアスを帯びる可能性があります。本論文では、不斉なプロンプト・レスポンス分布と外部の人間フィードバックソースを対応できる一般的な枠組み内で、2 つのデバイアス化された整合性手法を開発しました。デバイアス化されたダイレクト・プレフェランス・オプティマイゼーション(DDPO)は、標準的な DPO を残差に基づく補正と密度比再加重に拡張し、系統的バイアスを緩和しつつ DPO の計算効率を維持します。デバイアス化されたアイデンティティ・プレフェランス・オプティマイゼーション(DIPO)は、パラメトリックな報酬モデルを課さずに直接人間の好意確度を推定します。両手法に対する理論的保証を提供します:DDPO は大規模整合のための実用的で計算効率のよいソリューションを提供し、DIPO は半パラメトリック効界に達する堅牢な統計的最適な代替案となります。感情生成、要約、1 回対話などの実験的研究は、提案された手法が整合性効率を大幅に向上させ、完全に人間ラベルされたデータで訓練されたオーケストラに近いパフォーマンスを回復することを示しています。
Original Content
arXiv:2602.08259v1 Announce Type: cross
Abstract: Modern alignment pipelines are increasingly replacing expensive human preference labels with evaluations from large language models (LLM-as-Judge). However, AI labels can be systematically biased compared to high-quality human feedback datasets. In this paper, we develop two debiased alignment methods within a general framework that accommodates heterogeneous prompt-response distributions and external human feedback sources. Debiased Direct Preference Optimization (DDPO) augments standard DPO with a residual-based correction and density-ratio reweighting to mitigate systematic bias, while retaining DPO's computational efficiency. Debiased Identity Preference Optimization (DIPO) directly estimates human preference probabilities without imposing a parametric reward model. We provide theoretical guarantees for both methods: DDPO offers a practical and computationally efficient solution for large-scale alignment, whereas DIPO serves as a robust, statistically optimal alternative that attains the semiparametric efficiency bound. Empirical studies on sentiment generation, summarization, and single-turn dialogue demonstrate that the proposed methods substantially improve alignment efficiency and recover performance close to that of an oracle trained on fully human-labeled data.