Back to list
rePIRL: 逆强化学習を活用した LL M の PR M 学習
rePIRL: Learn PRM with Inverse RL for LLM Reasoning
Translated: 2026/3/15 14:48:27
Japanese Translation
arXiv:2602.07832v1 Announce Type: new
摘要: プロセス報酬は、深層強化学習における訓練効率の向上、分散の低減、そして報酬ハッキングの防止に広く使用されています。LLM 推理において、既存の研究は、エキスパート政策の有無に関わらず、効果的なプロセス報酬モデル (PRM) を学習するための様々な解決策を模索しています。しかし、既存の方法は、エキスパート政策に関する強い仮定に依存している(例えば、報酬関数を要求するなど)か、あるいは固有の制限に苦しんでおり(例えば、エントロピー崩壊)、結果として不十分な PRM または汎用性が制限されています。この論文では、エキスパート政策に関する最小限の仮定で効果的な PRM を学習する、逆強化学習に基づく rePIRL という枠組みを導入します。具体的には、政策と PRM を交互に更新する二重学習プロセスを設計しました。我々の学習アルゴリズムは、従来の逆強化学習を LL M にスケールさせる課題に対応するためのカスタマイズ済み手法を採用しています。我々は、我々が提案した学習フレームワークがオンラインおよびオフラインの PR M 学習の両方を統合できることを理論的に示し、rePIRL が最小限の仮定で PRM を学習できることを正当化しました。標準化された数学およびコーディング推理データセットでの実証評価は、既存の方法に対する rePIRL の効果を証明しています。我々は、さらに我々が訓練した PRM のテスト時トレーニング、テスト時スケーリング、および困難な問題に対する早期信号を提供への応用を示しました。最後に、詳細なアベレーション研究を通じて、我々のトレーニングレシピおよび鍵となる設計選択を検証しました。
Original Content
arXiv:2602.07832v1 Announce Type: new
Abstract: Process rewards have been widely used in deep reinforcement learning to improve training efficiency, reduce variance, and prevent reward hacking. In LLM reasoning, existing works also explore various solutions for learning effective process reward models (PRM) with or without the help of an expert policy. However, existing methods either rely on strong assumptions about the expert policies (e.g., requiring their reward functions) or suffer intrinsic limitations (e.g., entropy collapse), resulting in weak PRMs or limited generalizability. In this paper, we introduce rePIRL, an inverse RL-inspired framework that learns effective PRMs with minimal assumptions about expert policies. Specifically, we design a dual learning process that updates the policy and the PRM interchangeably. Our learning algorithm has customized techniques to address the challenges of scaling traditional inverse RL to LLMs. We theoretically show that our proposed learning framework can unify both online and offline PRM learning methods, justifying that rePIRL can learn PRMs with minimal assumptions. Empirical evaluations on standardized math and coding reasoning datasets demonstrate the effectiveness of rePIRL over existing methods. We further show the application of our trained PRM in test-time training, test-time scaling, and providing an early signal for training hard problems. Finally, we validate our training recipe and key design choices via a detailed ablation study.