Back to list
ペナルティーモデリングの統合:チェインオブシンキングを內包する効率的な視覚ペナルティーモデリング
Joint Reward Modeling: Internalizing Chain-of-Thought for Efficient Visual Reward Models
Translated: 2026/3/7 9:00:34
Japanese Translation
ペナルティーモデリングは、ヒトからのフィードバックから reinforcement learning を行う際のキープラントンとされています。このモデルは,生成モデルのアライメントの品質と信頼性を定めます。複雑なタスク例如画像編集において、ペナルティーモデリングはグローバルサémantic の一致やより先のロジカル制約を踏まえてリズレントな相似性を超えた捉え方をする必要があります。既存のペナルティーモデリングアプローチには鮮明にした制限があります。区分されたペナルティーモデリングは、人間の好みと良好に統合できるが、それによる複雑なサémantic に対する無視により困難となります。生成されたペナルティーモデリングは、強力なサémantic 理解およびロジカルリソースを持っていますが、インフォルマションの時間と、直感的に人間の好みに統合させるのが困難です。その上手くいって、我々は Joint Reward Modeling (JRM)を提案し、共有されたvision-language ビックネスで好条件の推測学習と言語モデリングを作り出すように両方を結合します。このアプローチは、生成モデルのサémantic そしてロジカルリソースを効率的でディシジョンティーズに引き出すことができ、それにより高速かつ正確な評価を行えます。JRMはMMRB2とEditReward-Bench、そして下流の在線強制学習における安定性とパフォーマンスを大幅に改善しています。これらの結果は、ペナルティーモデリングにおいて効率とアカランス理解を効果的に行うためにJRMの働きが良好であることを示します。
Original Content
arXiv:2602.07533v1 Announce Type: new
Abstract: Reward models are critical for reinforcement learning from human feedback, as they determine the alignment quality and reliability of generative models. For complex tasks such as image editing, reward models are required to capture global semantic consistency and implicit logical constraints beyond local similarity. Existing reward modeling approaches have clear limitations. Discriminative reward models align well with human preferences but struggle with complex semantics due to limited reasoning supervision. Generative reward models offer stronger semantic understanding and reasoning, but they are costly at inference time and difficult to align directly with human preferences. To this end, we propose Joint Reward Modeling (JRM), which jointly optimizes preference learning and language modeling on a shared vision-language backbone. This approach internalizes the semantic and reasoning capabilities of generative models into efficient discriminative representations, enabling fast and accurate evaluation. JRM achieves state-of-the-art results on MMRB2 and EditReward-Bench, and significantly improves stability and performance in downstream online reinforcement learning. These results show that joint training effectively bridges efficiency and semantic understanding in reward modeling.