Back to list
LLM の強化学習後訓練におけるスケーリング挙動:数学推論における経験的研究
Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning
Translated: 2026/4/20 11:03:57
Japanese Translation
arXiv:2509.25300v4 Announce Type: replace
要旨:大規模言語モデル(LLM)の前訓練におけるスケーリング法則について多くの研究がなされており、しかし、訓練後の強化学習(RL)下におけるその挙動はほとんど未研究である。本稿は、強化学習ベースの後訓練におけるスケーリング挙動を系統的に経験的に調査し、特に数学的推論に焦点を当てたものである。Qwen2.5 密度モデルシリーズ(0.5B から 72B)にかけて実施された一連の実験に基づき、モデル規模、データ量、および計算予算が性能を形成する上でどのように相互作用するかの特徴付けを行った。私たちの分析は 4 つの主要な発見をもたらした:1. 大規模モデルは、計算およびデータ両方のメトリックにおいて一貫して優越する学習効率を示す。2. テストロス、計算量、およびデータ量は、ベースモデルおよび指示チューニングモデルの両方において頑健である予測可能な冪法則によりモデル化できる。3. より大規模なモデルがより高い学習効率を示すものの、冪法則中の解析的学習効率項 k(N) は、モデルサイズが継続的に増加するにつれて学習効率に潜在的な飽和傾向を現していることを示している。4. データ制約の режимにおいて、高品質データの繰り返しの再利用は非常に効果的であり、最終的なパフォーマンスはサンプルの独自性よりも最適化ステップの総数によって主に支配される。これらの結果は、LLM の推論能力を RL 後訓練により効率的にスケーリングする原理的な基礎と実践的ガイドラインを提供する。
Original Content
arXiv:2509.25300v4 Announce Type: replace
Abstract: While scaling laws for large language models (LLMs) during pre-training have been extensively studied, their behavior under reinforcement learning (RL) post-training remains largely unexplored. This paper presents a systematic empirical investigation of scaling behaviors in RL-based post-training, with a particular focus on mathematical reasoning. Based on a set of experiments across the full Qwen2.5 dense model series (0.5B to 72B), we characterize how model scale, data volume, and computational budget interact to shape performance. Our analysis leads to four key findings: 1. Larger models consistently exhibit superior learning efficiency on both compute and data metrics. 2. The relationship between test loss, compute, and data can be modeled by a predictive power-law which is robust across both base and instruction-tuned models. 3. Although larger models exhibit higher learning efficiency, the analytical learning efficiency term k(N) in the power-law reveals a latent saturation trend in learning efficiency as model size continues to increase. 4. In data-constrained regimes, repeated reuse of high-quality data proves highly effective, as final performance is primarily governed by the total number of optimization steps rather than the uniqueness of samples. Collectively, these results provide a principled foundation and practical guidelines for efficiently scaling the reasoning capabilities of LLMs through RL post-training.