Back to list
自律型水中航行におけるタスク特化型サブネットワーク発見の強化学習アプローチ
Task-specific Subnetwork Discovery in Reinforcement Learning for Autonomous Underwater Navigation
Translated: 2026/4/24 20:27:51
Japanese Translation
arXiv:2604.21640v1 Announce Type: cross
アブストラクト:自律型水中車(AUV)は、動的かつ不確実な条件、限られた感知条件下で、従来のコントローラーが対応に苦労する複数のタスクを適応的かつ可視化された形で実行する必要があり、これに対応する堅牢で一般化でき、本質的に解釈可能な制御ポリシーが、信頼性の高い長期監視において求められています。特にマルチタスク強化学習(Multi-task Reinforcement Learning)は、共有表現を活用することでタスクと環境間の効率的な適応を可能にします。しかしながら、こうしたポリシーはシミュレーションや制御された実験では有望な結果を示しつつも、エージェントの内部意思決定への洞察が限られており、不透明性が信頼性と安全性の面で実世界への展開を妨げる障壁となっています。内部ポリシー構造とタスク特化特化は未十分に理解されています。これらのギャップに対応するために、私たちは水中航行のためのホロオーシャン(HoloOcean)シミュレータ内で事前訓練されたマルチタスク強化学習ネットワークの内部構造を分析し、異なる種へ向かうナビゲーションを担当するタスク特化型サブネットワークを特定・比較しました。私たちは、関連するタスクを有する文脈付きマルチタスク強化学習設定において、ネットワークがタスク間を区別するためには約 1.5% のみしか使わない重量のみを使用していることを発見しました。これらは、入力層の文脈変化ノードから次の隠れ層へ約 85% が接続しており、この設定における文脈変数の重要性を強調しています。私々のアプローチは、効率的なモデル編集、転移学習、および文脈付きマルチタスク強化学習手法を通じて水中監視のための継続的学習に役立つ共有と特化されたネットワーク構成要素の洞察を提供します。
Original Content
arXiv:2604.21640v1 Announce Type: cross
Abstract: Autonomous underwater vehicles are required to perform multiple tasks adaptively and in an explainable manner under dynamic, uncertain conditions and limited sensing, challenges that classical controllers struggle to address. This demands robust, generalizable, and inherently interpretable control policies for reliable long-term monitoring. Reinforcement learning, particularly multi-task RL, overcomes these limitations by leveraging shared representations to enable efficient adaptation across tasks and environments. However, while such policies show promising results in simulation and controlled experiments, they yet remain opaque and offer limited insight into the agent's internal decision-making, creating gaps in transparency, trust, and safety that hinder real-world deployment. The internal policy structure and task-specific specialization remain poorly understood. To address these gaps, we analyze the internal structure of a pretrained multi-task reinforcement learning network in the HoloOcean simulator for underwater navigation by identifying and comparing task-specific subnetworks responsible for navigating toward different species. We find that in a contextual multi-task reinforcement learning setting with related tasks, the network uses only about 1.5% of its weights to differentiate between tasks. Of these, approximately 85% connect the context-variable nodes in the input layer to the next hidden layer, highlighting the importance of context variables in such settings. Our approach provides insights into shared and specialized network components, useful for efficient model editing, transfer learning, and continual learning for underwater monitoring through a contextual multi-task reinforcement learning method.