Back to list
Solver-Verifier Gap を通じた大規模言語モデルの自己改善トレーニング動態の理論的モデル化
Theoretical Modeling of Large Language Model Self-Improvement Training Dynamics Through Solver-Verifier Gap
Translated: 2026/3/15 13:03:04
Japanese Translation
arXiv:2507.00075v4 Announce Type: replace
Abstract: 自己改善は、大規模言語モデル(LLM)の領域において、外部データの依存をなくして LLM のパフォーマンスを向上させるための重要な手法です。その重要性にもかかわらず、自己改善プロセス中に LLM パフォーマンスがどのように進化するのかについては、一般的に十分に探索されていません。本研究では、ソルバー・ベリファイアギャップの概念を通じて自己改善のトレーニング動態を理論的にモデル化しました。これは、自己改善によるパフォーマンス向上が LLM のソルバー能力とベリファイア能力の間に存在するギャップに起因するという仮説に触発されています。この理論的枠組みに基づき、トレーニング全体の軌道もモデル化します。この枠組みは、理論モデルを実験結果にフィットさせることで、自己改善の能力限界を定量化することを可能にします。我々は、この理論的枠組みの有効性をさまざまな LLM とデータセットで検証しました。自己改善に加え、我々は外部データがこの枠組み内の動態にどのように影響するかについても分析を拡張し、検討しました。特に、限られた外部データ条件下では、そのような外部データは最終パフォーマンスに顕著な影響を与えずに任意の段階で利用できると見出し、これは観測事実に合致しています。
Original Content
arXiv:2507.00075v4 Announce Type: replace
Abstract: Self-improvement is a significant techniques within the realm of large language model (LLM), aiming to enhance the LLM performance without relying on external data. Despite its significance, generally how LLM performances evolve during the self-improvement process remains underexplored. In this paper, we theoretically model the training dynamics of self-improvement via the concept of solver-verifier gap. This is inspired by the conjecture that the performance enhancement of self-improvement stems from the gap between LLM's solver capability and verifier capability. Based on the theoretical framework, we further show how to model the entire training trajectory. This framework allows quantifying the capability limit of self-improvement by fitting the theoretical model to the experiment results. We validate the effectiveness of the theoretical framework on various LLMs and datasets. Beyond self-improvement, we extend our analysis to investigate how external data influences these dynamics within the framework. Notably, we find that under limited external data regimes, such external data can be utilized at any stage without significantly affecting final performances, which accords with the empirical observations.