arxiv_cs_ai 2026年4月24日

Continuous-Utility Direct Preference Optimization

Translated: 2026/4/24 20:34:18

continuous-utility-direct-preference-optimizationlarge-language-modelsreasoningmachine-learningalignment

Japanese Translation

arXiv:2602.00931v2 Announce Type: replace-cross 摘要：大型言語モデルの推論は、しばしば単一の能力として扱われており、部分の進捗や微細な推論の質を捉えきれない二項選択の優位性の監視に依存しています。私たちは、連続Utility Direct Preference Optimization（CU-DPO）を導入しました。これは、二項ラベルを微細な推論の質を捉える連続的なスコアに置き換えることで、プロンプトベースの認知戦略のポートフォリオに沿するフレームワークです。K の戦略を用いた学習が二項優位性と比較して Theta(K log K) のサンプル複雑性の向上をもたらすこと、および DPO がエントロピー規則化された利活用最大化ポリシーに収束することを証明しました。この信号を利用するため、二つの段階からなるトレーニングパイプラインを提案しました：(i) 戦略選択、これはモデルが与えられた問題にとって最も最適な戦略を選択するように最適化し、これは Best-vs-All 比較によって実行されます。(ii) 実行の洗練、これは選択された戦略を正しく実行するように境界層付けされた対を用いてモデルを訓練します。数学的推論のベンチマークにおいて、CU-DPO は 7 つのベースモデルに対して戦略選択の精度を 35-46% から 68-78% に向上させ、分布内データセットにおいて最大 6.6 ポイントという一貫した下流の推論獲得をもたらすと同時に、分布外タスクへの効果的な転移を実現しました。

Original Content

arXiv:2602.00931v2 Announce Type: replace-cross Abstract: Large language model reasoning is often treated as a monolithic capability, relying on binary preference supervision that fails to capture partial progress or fine-grained reasoning quality. We introduce Continuous Utility Direct Preference Optimization (CU-DPO), a framework that aligns models to a portfolio of prompt-based cognitive strategies by replacing binary labels with continuous scores that capture fine-grained reasoning quality. We prove that learning with K strategies yields a Theta(K log K) improvement in sample complexity over binary preferences, and that DPO converges to the entropy-regularized utility-maximizing policy. To exploit this signal, we propose a two-stage training pipeline: (i) strategy selection, which optimizes the model to choose the best strategy for a given problem via best-vs-all comparisons, and (ii) execution refinement, which trains the model to correctly execute the selected strategy using margin-stratified pairs. On mathematical reasoning benchmarks, CU-DPO improves strategy selection accuracy from 35-46 percent to 68-78 percent across seven base models, yielding consistent downstream reasoning gains of up to 6.6 points on in-distribution datasets with effective transfer to out-of-distribution tasks.