Back to list
Kalman フィルター付き GRPO の提案:言語モデルにおける強化学習基盤の論理推論
Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning
Translated: 2026/4/24 20:07:35
Japanese Translation
arXiv:2505.07527v5 Announce Type: replace
要約:优势関数は強化学習における中心的な概念であり、ポリシー勾配推定の変異を低減するために役立ちます。言語モデル化の文脈では、グループ相対ポリシー最適化(GRPO)が、优势の正規化に対してグループ内のサンプル平均を基準として利用する提案を行いました。この推定者は、グループサイズやロールアウトレベルの確率性が小さく、一部の設定では最適な优势推定に寄与しない可能性があります。本稿では、各グループの報酬を潜在的なプロンプトレベルの報酬基準のノイズ観測と扱う軽量化された Kalman フィルター強化グループ相対ポリシー最適化(KRPO)を提案します。KRPO は 1 次元カルマンフィルターを使用して、基準およびその不確実性を推定します。KRPO は追加された学習パラメータを導入せず、最小限の計算オーバーヘッドで GRPO に統合可能です。数値推論ベンチマークにおいて、KRPO は GRPO に比較してトレーニング報酬曲線と最終精度を一貫して改善します。これらの結果は、適応的な优势推定が言語モデルの推論におけるクリティカルフリー(批評子なし)強化学習における有望な方向である可能性を示唆しています。コードは https://github.com/billhhh/KRPO_LLMs_RL に利用可能です。
Original Content
arXiv:2505.07527v5 Announce Type: replace
Abstract: The advantage function is a central concept in RL that helps reduce variance in policy gradient estimates. For language modeling, Group Relative Policy Optimization (GRPO) was proposed to use the within-group sample mean as a baseline for advantage normalization. This estimator can be sensitive to small group size and rollout-level stochasticity, which may lead to suboptimal advantage estimates in some settings. In this paper, we propose Kalman Filter Enhanced Group Relative Policy Optimization (KRPO), a lightweight variant that treats per-group rewards as noisy observations of a latent prompt-level reward baseline and uses a 1D Kalman filter to estimate both the baseline and its uncertainty. KRPO introduces no additional learned parameters and can be integrated into GRPO with minimal computational overhead. On mathematical reasoning benchmarks, KRPO consistently improves training reward curves and final accuracy over GRPO. These results suggest that adaptive advantage estimation is a promising direction for critic-free reinforcement learning in language model reasoning. The code is available at https://github.com/billhhh/KRPO_LLMs_RL.