Back to list
lever:サポート制約下での推論時政策再利用
Lever: Inference-Time Policy Reuse under Support Constraints
Translated: 2026/4/24 19:57:09
Japanese Translation
arXiv:2604.20174v1 発表タイプ:新規
要約:強化学習(RL)のポリシーは通常、固定された目的のために訓練されるため、タスク要件が変更された際に再利用が困難です。私たちが研究するのは、推論時の政策再利用です。あらかじめ訓練済みの政策のライブラリと新しい複合目的が与えられた場合、追加のエナジーボットとの相互作用なしに完全にオフラインで高品質なポリシーを構築できるでしょうか?私たちは、再利用可能なポリシーのための効力ベクトル埋め込みを利用する(lever: Leveraging Efficient Vector Embeddings for Reusable policies)エンドツーエンドのフレームワークを導入しました。このフレームワークは、関連する政策を取得し、行動埋め込みを使用して評価し、オフライン Q 値の組み合わせを通じて新しい政策を組み立てます。私たちは、値の伝播が不可能であるサポート制限された regimes に焦点を当て、再利用の有効性は利用可能な遷移のカバレッジに決定的に依存することが示されました。パフォーマンスと計算コストのバランスを取るために、lever は候補政策の探査を制御する組み合わせ戦略を提案しました。確定的なグリッドワールド環境における実験では、推論時の組み合わせは、スクラッチからの訓練のパフォーマンスに一致し、一部のケースではそれを上回ることを示しました。また、大幅なスルーput を提供しました。同時に、長期的依存関係が値の伝播を必要とする場合、パフォーマンスは低下し、これはオフライン再利用の基本的な限界を示しています。
Original Content
arXiv:2604.20174v1 Announce Type: new
Abstract: Reinforcement learning (RL) policies are typically trained for fixed objectives, making reuse difficult when task requirements change. We study inference-time policy reuse: given a library of pre-trained policies and a new composite objective, can a high-quality policy be constructed entirely offline, without additional environment interaction? We introduce lever (Leveraging Efficient Vector Embeddings for Reusable policies), an end-to-end framework that retrieves relevant policies, evaluates them using behavioral embeddings, and composes new policies via offline Q-value composition. We focus on the support-limited regime, where no value propagation is possible, and show that the effectiveness of reuse depends critically on the coverage of available transitions. To balance performance and computational cost, lever proposes composition strategies that control the exploration of candidate policies. Experiments in deterministic GridWorld environments show that inference-time composition can match, and in some cases exceed, training-from-scratch performance while providing substantial speedups. At the same time, performance degrades when long-horizon dependencies require value propagation, highlighting a fundamental limitation of offline reuse.