Back to list
arxiv_cs_ai 2026年4月24日

逆強化学習を用いた専門家によるデモンストレーションからの推理報酬モデルの学習

Learning Reasoning Reward Models from Expert Demonstration via Inverse Reinforcement Learning

Translated: 2026/4/24 20:30:02
inverse-reinforcement-learninglarge-language-modelsreasoningsupervised-fine-tuningreward-models

Japanese Translation

arXiv:2510.01857v3 Announce Type: replace 要約: 現在の大規模言語モデル(LLM)の推理性能向上アプローチは、主に専門家による追跡(expert traces)からの上流微调(SFT)または、成果レベルの報酬を持つ強化学習(RL)に依存しています。しかし、SFT は本質的に模倣に過ぎず、成果ベースの RL は正確に指定された検証器へのアクセスを前提とします。このギャップを解消するため、我々は専門家によるデモンストレーションから直接推理報酬を学習する、対抗型逆強化学習(adversarial inverse reinforcement learning: AIRL)フレームワークを提案します。本フレームワークは報酬の粒度(疎、間隔、dense)を問わず評価されます。粒度は crediting の分解能を制御し、疎な報酬はглобалな軌道品質と学習の安定性を強調する一方、密度の高い報酬は誤り局所化のためにステップレベルの更高分解能の監視を提供しますが、安定した最適化は困難です。我々は、学習された推理報酬が、以下の 3 つの補完的な方法で有用であることを示します。まず、トレーニングシグナルとして、SFT を常につきまとう場合、最良の変種は MedReason(医療推理)、GSM8K(数学)、および MMLU-Pro(困難な科学質問解答)などの課題で SFT を凌駕します。第二に、推論時のリランカー(reranker)として、固定されたサンプリング予算で最大 17.4 パーセントポイントの向上をもたらします。第三に、学習された報酬はタスクやベースバックbonesをまたぎ、その一部のシグナルが単一のドメインやモデルを超えて再利用可能であることを示唆しており、より細かい粒度の報酬は軌道が正しいパスからどれくらい偏离するかの最初のステップを特定します。これは推理失敗の診断およびテスト時間の選択改善をサポートします。これらの結果は、AIRL がデモンストレーションだけで再利用可能な中間推理ステップを再獲得できることを示しており、LLM 推理における純粋な模倣と報酬駆動型最適化の間のギャップを架け橋となりました。

Original Content

arXiv:2510.01857v3 Announce Type: replace Abstract: Current approaches to improving reasoning in large language models (LLMs) primarily rely on either supervised fine-tuning (SFT) over expert traces or reinforcement learning (RL) with outcome-level rewards. However, SFT is fundamentally imitative, while outcome-based RL assumes access to a well-specified verifier. To address this gap, we propose an adversarial inverse reinforcement learning (AIRL) framework that learns reasoning rewards directly from expert demonstrations. We evaluate this framework across reward granularities (sparse, interval, and dense). Granularity controls the resolution of credit assignment: sparse rewards emphasise global trajectory quality and training stability, while denser rewards provide higher-resolution step-level supervision for error localisation but are harder to optimise stably. We show that the learned reasoning rewards are useful in three complementary ways. First, as a training signal, they often outperform SFT, with the best variant improving over SFT on medical reasoning (MedReason), mathematics (GSM8K), and challenging scientific question-answering (MMLU-Pro). Second, as an inference-time reranker, they gain up to 17.4 percentage points under a fixed sampling budget. Third, the learned reward transfers across tasks and backbones, suggesting that part of the signal is reusable beyond a single domain or model, and that finer-grained rewards identify the first step at which a trajectory deviates from a correct path. This supports the diagnosis of reasoning failures and the improvement of test-time selection. Together, these results show that AIRL can recover a reusable intermediate reasoning step from demonstrations alone, bridging the gap between pure imitation and reward-driven optimisation for LLM reasoning.