Back to list
arxiv_cs_lg 2026年4月24日

トラジェクトリ・プレフェレンス・フィードバックに基づく最適な政策学習

Best Policy Learning from Trajectory Preference Feedback

Translated: 2026/4/24 20:07:22
reinforcement-learningpreference-learningbayesian-inferencegenerative-aipost-training-optimization

Japanese Translation

arXiv:2501.18873v4 Announce Type: replace 要約: ヒューマン・フィードバックから強化学習(RLHF)は生成モデルの整列において強力なアプローチとして台頭しましたが、学習された報酬モデルへの依存により、誤指定と報酬ハッキングに対する脆弱性があります。トラジェクトリに基づく強化学習(PbRL)は、ノイズを持つ二進比較を直接活用することで、より堅牢な代替案を提供します。本稿では、生成モデルのポストトレーニング最適化(例:マルチターンの間)を_motivation_とすると、PbRLにおける最適な政策特定問題を研究します。この環境での学習は、潜在的不偏または分布外である可能性のある、能力が不十分な評価者から収集されたオフラインの好ましさを示すデータセットと、オンラインの純粋な探索を組み合わせたものです。このため、系統的なオンライン学習が不可欠です。したがって、我々は Top-Two Thompson Sampling に着想を得た新算法である Posterior Sampling for Preference Learning ($\mathsf{PSPL}$) を提案し、報酬モデルおよびダイナミクスに対するポスターior を維持します。我々は PbRL に関する最初のカンニング単純な再犯れの保証を提供し、シミュレーションおよび画像生成のベンチマークにおいて既存の基準を上回る効率的な近似を導入します。

Original Content

arXiv:2501.18873v4 Announce Type: replace Abstract: Reinforcement Learning from Human Feedback (RLHF) has emerged as a powerful approach for aligning generative models, but its reliance on learned reward models makes it vulnerable to mis-specification and reward hacking. Preference-based Reinforcement Learning (PbRL) offers a more robust alternative by directly leveraging noisy binary comparisons over trajectories. We study the best policy identification problem in PbRL, motivated by post-training optimization of generative models, for example, during multi-turn interactions. Learning in this setting combines an offline preference dataset - potentially biased or out-of-distribution and collected from a rater of subpar `competence' - with online pure exploration, making systematic online learning essential. To this end, we propose Posterior Sampling for Preference Learning ($\mathsf{PSPL}$), a novel algorithm inspired by Top-Two Thompson Sampling that maintains posteriors over the reward model and dynamics. We provide the first Bayesian simple regret guarantees for PbRL and introduce an efficient approximation that outperforms existing baselines on simulation and image generation benchmarks.