Back to list
プロキマルアクション置換によるオフライン強化学習の行動複製アクティビター・クリティックへの応用
Proximal Action Replacement for Behavior Cloning Actor-Critic in Offline Reinforcement Learning
Translated: 2026/3/15 14:07:06
Japanese Translation
arXiv:2602.07441v1 発表タイプ:新
要約: オフライン強化学習(RL)は、事前に収集された静的データセットからポリシーを最適化するもので、強化学習の重要な分野です。人気の有望なアプローチとして、行動複製(BC)を用いてアクティビター・クリティック手法を制約する手法があり、これは現実的なポリシーを生み出し、分布外アクションによるバイアスを軽減しますが、しばしば見過ごされたパフォーマンスの天井をもたらします:データセットのアクションが最適でない場合、盲目的な真似はクリティックが示唆する高価値領域をフルに活用できず、特に真似が優位にある后期的な訓練段階で顕著に現れます。私たちは、この限界を正式に分析するために、BC 制約されたアクティビター・クリティック最適化の収束特性を調査し、制御された連続的なバンドットタスクで検証しました。この天井を突破するため、我々はプロキマルアクション置換(PAR)を提案しました。PAR は、安定したアクティビターによって生成された高価値アクションを漸次的に低価値アクションに置き換える、プラグアンドプレイのトレーニングサンプル置換器であり、アクション探索空間を広げつつ、低価値データの影響を削減します。PAR は複数の BC 制約のパラダイムと互換性があります。オフライン RL ベンチマークの広範な実験において、PAR は基本 TD3+BC と組み合わせて一貫してパフォーマンスを改善し、ステート・オブ・ザ・アートに近づきました。
Original Content
arXiv:2602.07441v1 Announce Type: new
Abstract: Offline reinforcement learning (RL) optimizes policies from a previously collected static dataset and is an important branch of RL. A popular and promising approach is to regularize actor-critic methods with behavior cloning (BC), which yields realistic policies and mitigates bias from out-of-distribution actions, but can impose an often-overlooked performance ceiling: when dataset actions are suboptimal, indiscriminate imitation structurally prevents the actor from fully exploiting high-value regions suggested by the critic, especially in later training when imitation is already dominant. We formally analyzed this limitation by investigating convergence properties of BC-regularized actor-critic optimization and verified it on a controlled continuous bandit task. To break this ceiling, we propose proximal action replacement (PAR), a plug-and-play training sample replacer that progressively replaces low-value actions with high-value actions generated by a stable actor, broadening the action exploration space while reducing the impact of low-value data. PAR is compatible with multiple BC regularization paradigms. Extensive experiments across offline RL benchmarks show that PAR consistently improves performance and approaches state-of-the-art when combined with the basic TD3+BC.