Back to list
ロールアウト増強によるビジョン・言語モデルにおける自己修正学習
Learning Self-Correction in Vision-Language Models via Rollout Augmentation
Translated: 2026/3/16 14:05:28
Japanese Translation
arXiv:2602.08503v1 Announce Type: new
要旨:自己修正は、ビジョン・言語モデル(VLM)の複雑な推理問題の解決において不可欠です。しかし、既存の強化学習(RL)手法は、自己修正行動が極めて稀にのみ出現するため、学習シグナルが極端に疎であることに失敗しています。この課題に対処するため、私たちは既存のロールアウトを再組み合わせることで、高密度な自己修正例を合成する RL ロールアウト増強フレームワーク、修正特異ロールアウト(Octopus)を提案します。この増強手法はロールアウトの再利用によりサンプリング効率を向上させるとともに、バランスの良い監視を通じて RL 最適化を安定させます。さらに、直接の推理から自己修正を切り離し、シグナルの衝突を回避し、両方の動作を効果的に学習可能にするレスポンスクーミング戦略を導入します。これに基づき、自己修正能力が制御可能である推理 VLM、Octopus-8B を導入しました。7 つのベンチマークにおいて、Octopus-8B はオープンソース VLM 中の SoTA 性能を達成し、最も優れた RLVR ベースラインを 1.0 のスコアで凌駕する一方で、1 ステップあたり $0.72 imes$ のトレーニング時間を必要とします。
Original Content
arXiv:2602.08503v1 Announce Type: new
Abstract: Self-correction is essential for solving complex reasoning problems in vision-language models (VLMs). However, existing reinforcement learning (RL) methods struggle to learn it, as effective self-correction behaviors emerge only rarely, making learning signals extremely sparse. To address this challenge, we propose correction-specific rollouts (Octopus), an RL rollout augmentation framework that synthesizes dense self-correction examples by recombining existing rollouts. This augmentation simultaneously improves sample efficiency due to rollout reuse and stabilizes RL optimization through balanced supervision. Furthermore, we introduce a response-masking strategy that decouples self-correction from direct reasoning, avoiding signal conflicts and enabling both behaviors to be learned effectively. Building on this, we introduce Octopus-8B, a reasoning VLM with controllable self-correction capability. Across 7 benchmarks, it achieves SoTA performance among open-source VLMs, outperforming the best RLVR baseline by 1.0 score while requiring only $0.72\times$ training time per step.