Back to list
arxiv_cs_lg 2026年2月10日

コンテキスト上で学習し、選択によって導かれる:トランスフォーマーを用いた報酬フリーの強化学習パラダイム

Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers

Translated: 2026/3/15 15:03:39
reinforcement-learningtransformerin-context-learningreward-freepreference-learning

Japanese Translation

arXiv:2602.08244v1 Announce Type: new 要旨: コンテキスト上で強化学习(ICRL)は、トランスフォーマーモデル(TMs)のコンテキスト上での学習能力を活用し、パラメータ更新なしに見知らぬ順次決定タスクに効率的に一般化させます。しかし、既存の ICRL 手法は事前学習に明示的な報酬信号を依存しており、報酬が曖昧、指定が困難、あるいは取得費用が高い場合の適用性を制限します。この制限を克服するため、われわれは事前学習およびデプロイメントの両方が嗜好フィードバックのみに基づき、報酬監督の必要性を排除する新たな学習パラダイムである、「コンテキスト上で嗜好ベースの強化学習(ICPRL)」を提案します。われわれは、フィードバックの粒度において二つのバリアントを研究しました:ステップごとの嗜好に基づく RL(I-PRL)と、軌道レベルでの比較に基づく RL(T-PRL)。まず、ICRL の標準的手法である教師付き事前学習が、嗜好のみで構成されるコンテキストデータセット下でも依然として有効であることを示し、嗜好信号のみを用いたコンテキスト上での強化学習の実現可能性を裏付けます。さらにデータ効率を向上させるために、I-PRL と T-PRL への別個の嗜好固有フレームワークを導入し、これらは嗜好データから直接 TM ポリシーを最適化するため、報酬信号も最適行動のラベルも必要としません。対決バンドット、ナビゲーション、連続制御タスクにおける実験は、ICPRL が未見タスクへの強力なコンテキスト上での一般化を可能にし、全報酬監督を受けた ICRL 手法と同じパフォーマンスを実現することを示しています。

Original Content

arXiv:2602.08244v1 Announce Type: new Abstract: In-context reinforcement learning (ICRL) leverages the in-context learning capabilities of transformer models (TMs) to efficiently generalize to unseen sequential decision-making tasks without parameter updates. However, existing ICRL methods rely on explicit reward signals during pretraining, which limits their applicability when rewards are ambiguous, hard to specify, or costly to obtain. To overcome this limitation, we propose a new learning paradigm, In-Context Preference-based Reinforcement Learning (ICPRL), in which both pretraining and deployment rely solely on preference feedback, eliminating the need for reward supervision. We study two variants that differ in the granularity of feedback: Immediate Preference-based RL (I-PRL) with per-step preferences, and Trajectory Preference-based RL (T-PRL) with trajectory-level comparisons. We first show that supervised pretraining, a standard approach in ICRL, remains effective under preference-only context datasets, demonstrating the feasibility of in-context reinforcement learning using only preference signals. To further improve data efficiency, we introduce alternative preference-native frameworks for I-PRL and T-PRL that directly optimize TM policies from preference data without requiring reward signals nor optimal action labels.Experiments on dueling bandits, navigation, and continuous control tasks demonstrate that ICPRL enables strong in-context generalization to unseen tasks, achieving performance comparable to ICRL methods trained with full reward supervision.