Back to list
GRPO-VPS: 検証可能なプロセス監督によるグループ相対的行動最適化の強化で実現した効果的な推論
GRPO-VPS: Enhancing Group Relative Policy Optimization with Verifiable Process Supervision for Effective Reasoning
Translated: 2026/4/24 19:59:41
Japanese Translation
arXiv:2604.20659v1 発表タイプ:新規
摘要:検証可能な報酬を特徴とする強化学習(RLVR)は、学習された報酬モデルに代わり直接の出力検証を利用することで、大規模言語モデル(LLM)の推論能力を進歩させました。このパラダイムを踏まえ、グループ相対的行動最適化(GRPO)は批評子モデルの必要性を排除しましたが、中間ステップへの信用配分が indiscriminate(任意的)であるために、効果的な推論戦略を特定する能力に制限をかけ、過度の思考(overthinking)を招きます。本研究では、モデルの推論経路全体を通じて正解に対するモデルの信念を探究することにより、モデルフリーかつ検証可能なプロセス監督を導入します。生成を離散的なステップに分割し、各セグメント境界に追加される正解の条件付き確率を追跡することで、GRPO の経路レベルのフィードバックを精緻化できる解釈可能なセグメントごとの進捗測定を効率的に計算します。このアプローチは、より集中し、サンプリング効率の高いポリシー更新を可能にし、高コストなモンテカルロロールアウトや補助モデルから得られる中間監督の必要性を回避します。数式および一般ドメインのベンチマークにおける実験では、様々なモデルに対して GRPO を越える一貫した改善が見られ、数式タスクでは最大 2.6 ポイントの精度向上と 13.7% の推論长度削減、一般ドメインタスクでは最大 2.4 ポイントと 4% の改善が見られ、強い一般化性能が示されました。
Original Content
arXiv:2604.20659v1 Announce Type: new
Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the reasoning capabilities of Large Language Models (LLMs) by leveraging direct outcome verification instead of learned reward models. Building on this paradigm, Group Relative Policy Optimization (GRPO) eliminates the need for critic models but suffers from indiscriminate credit assignment for intermediate steps, which limits its ability to identify effective reasoning strategies and incurs overthinking. In this work, we introduce a model-free and verifiable process supervision via probing the model's belief in the correct answer throughout its reasoning trajectory. By segmenting the generation into discrete steps and tracking the conditional probability of the correct answer appended at each segment boundary, we efficiently compute interpretable segment-wise progress measurements to refine GRPO's trajectory-level feedback. This approach enables more targeted and sample-efficient policy updates, while avoiding the need for intermediate supervision derived from costly Monte Carlo rollouts or auxiliary models. Experiments on mathematical and general-domain benchmarks show consistent gains over GRPO across diverse models: up to 2.6-point accuracy improvements and 13.7% reasoning-length reductions on math tasks, and up to 2.4 points and 4% on general-domain tasks, demonstrating strong generalization.