Back to list
動的ロールアウトアロケーションとアドバンテージモジュレーションによるポリシー最適化:どのように割り当てるのか、どのように学習するか
How to Allocate, How to Learn? Dynamic Rollout Allocation and Advantage Modulation for Policy Optimization
Translated: 2026/4/24 20:34:42
Japanese Translation
arXiv:2602.19208v2 Announce Type: replace-cross
要約:検証可能な報酬(Verifiable Rewards)を伴う強化学習(Reinforcement Learning with Verifiable Rewards: RLVR)は、大規模言語モデル(Large Language Model: LLM)の推論において非常に効果的であることが証明されていますが、現在の手法はリソースアロケーションとポリシー最適化のダイナミクスにおいて重要な課題に直面しています:(i) 均一なロールアウトアロケーションは、問題間で勾配変動の非均一性を無視しており、(ii) ソフトマックスポリシー構造は高い確度の正しいアクションに対する勾配の減衰を引き起こす一方で、過剰な勾配更新はトレーニングの不安定化をもたらす可能性があります。したがって、我々は理論的に裏付けられた二重のアプローチを持つ最適化フレームワーク「DynaMO」を提案します。配列のレベルにおいて、我々は均一アロケーションが非最適であることを証明し、基本法則から変動最小化アロケーションを導き出しました。これにより、ベルヌーイ変動を計算可能な勾配の情報量を表現する代用として確立しました。トークンのレベルにおいて、勾配の規模の境界の理論分析に基づいた勾配意識アドバンテージモジュレーションを開発しました。我々のフレームワークは、高い確度の正しいアクションの勾配減衰を補償するだけでなく、エントロピーの変化を計算可能な指標として利用して過剰な更新サイズを安定化させます。多様な数値推論ベンチマークで行われた大規模な実験は、強力な RLVR ベースラインとの一貫した改善を示しました。我々の実装は以下の URL から利用可能です:https://github.com/GithubX-F/DynaMO-RL
Original Content
arXiv:2602.19208v2 Announce Type: replace-cross
Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has proven effective for Large Language Model (LLM) reasoning, yet current methods face key challenges in resource allocation and policy optimization dynamics: (i) uniform rollout allocation ignores gradient variance heterogeneity across problems, and (ii) the softmax policy structure causes gradient attenuation for high-confidence correct actions, while excessive gradient updates may destabilize training. Therefore, we propose DynaMO, a theoretically-grounded dual-pronged optimization framework. At the sequence level, we prove that uniform allocation is suboptimal and derive variance-minimizing allocation from the first principle, establishing Bernoulli variance as a computable proxy for gradient informativeness. At the token level, we develop gradient-aware advantage modulation grounded in theoretical analysis of gradient magnitude bounds. Our framework compensates for gradient attenuation of high-confidence correct actions while utilizing entropy changes as computable indicators to stabilize excessive update magnitudes. Extensive experiments conducted on a diverse range of mathematical reasoning benchmarks demonstrate consistent improvements over strong RLVR baselines. Our implementation is available at: https://github.com/GithubX-F/DynaMO-RL.