Back to list
言語による批評を通じたプロセス監視が大型言語モデルの推論を改善する
Process Supervision via Verbal Critique Improves Reasoning in Large Language Models
Translated: 2026/4/24 20:27:42
Japanese Translation
arXiv:2604.21611v1 Announce Type: cross
要約: 大型言語モデル(LLM)の推論時の推論スケーリングは、チェーン深度、サンプルの広がり、および学習されたステップスコアラー(PRM)の三つの軸に焦点を当ててきました。私たちは、より強い監視者からの構造化された自然言語批評を利用して、生成−批評−精緻化の反復ループを最大 R 回まで誘導する、勾配更新なしのトレーニングフリーなフレームワークである言語プロセス監視(Verbal Process Supervision: VPS)によって、四つの軸を新設します。GPQA Diamond、AIME 2025、および LiveCodeBench V6(閉じたモデルと開いたモデルを両含む)を網羅することで、VPS は 3 つの主要な結果をもたらしました。第一に、GPQA Diamondにおいて、GPT-5.4 (High) | GPT-5.4 (Low) は R=4 で 94.9% に到達し、勾配更新なしの最新技術(94.1%)を超えました。第二に、AIME 2025 において、VPS は弱いアクターを強力に救済し、スコアを 11.7-26.7% から 63.3-90.0% へ Boost させました(最大で +63.3 ポイント)。第三に、同等の計算量において、VPS は Reflexion より +8.5 から +12.1 ポイント、Self-Consistency@5 より +5.0 pp (GPQA) および +8.3 pp (LiveCodeBench) を優れています。これにより、批評の粒度がキードライバーであることが解明されました。パフォーマンスは監視者−アクター能力のギャップ(Pearson r=0.90)とともにスケールし、誤りが言語的に表現不可能な場合(例:コード合成)では劣化します。これにより、ハイブリッドな言語実行可能な方法が動機付けられます。これらの結果は、批評の粒度が推論時のスケーリングの新しい軸であることを確立しました。
Original Content
arXiv:2604.21611v1 Announce Type: cross
Abstract: Inference-time scaling for LLM reasoning has focused on three axes: chain depth, sample breadth, and learned step-scorers (PRMs). We introduce a fourth axis, granularity of external verbal supervision, via Verbal Process Supervision (VPS), a training-free framework that uses structured natural-language critique from a stronger supervisor to guide an iterative generate-critique-refine loop up to a round budget R. Across GPQA Diamond, AIME 2025, and LiveCodeBench V6 (covering both closed and open models), VPS yields three key results. First, on GPQA Diamond, GPT-5.4 (High) | GPT-5.4 (Low) reaches 94.9% at R=4, surpassing the 94.1% state of the art without gradient updates. Second, on AIME 2025, VPS enables strong weak-actor rescue, boosting scores from 11.7-26.7% to 63.3-90.0% (up to +63.3 points). Third, at matched compute, VPS outperforms Reflexion by +8.5 to +12.1 points and Self-Consistency@5 by +5.0 pp (GPQA) and +8.3 pp (LiveCodeBench), isolating critique granularity as the key driver. Performance scales with the supervisor-actor capability gap (Pearson r=0.90) and degrades when errors are not linguistically expressible (e.g., code synthesis), motivating hybrid verbal-executable methods. These results establish critique granularity as a new axis of inference-time scaling.