Back to list
Offline 強化学習における効率的な反探求手法:VQVAE と Fuzzy Clustering を活用
Efficient Anti-exploration via VQVAE and Fuzzy Clustering in Offline Reinforcement Learning
Translated: 2026/3/15 14:49:02
Japanese Translation
arXiv:2602.07889v1 Announce Type: new
要旨:偽計数(pseudo-count)は、状態 - 行動ペアの数え上げを伴い、稀または未見の状態 - 行動ペアデータに対して大きな罰則を課すことで、オフライン強化学習において極めて効果的な反探求手法である。既存の反探求手法は、これらのデータを離散化することで連続な状態 - 行動ペアをカウントしているが、離散化プロセスにおける「次元の災難」と情報損失の問題に直面し、これにより学習効率と性能が低下したり、ポリシー学習自体が失敗したりする事例が存在する。本稿では、オフライン強化学習における新しい反探求手法として、ベクター化された変分自動エンコーダー(VQVAE)および Fuzzy Clustering をベースにした手法を提案する。まず、マルチコードブック VQVAE をベースにした効率的な偽計数手法を提案し、状態 - 行動ペアを離散化することで、次元の災難の問題に対処し学習効率を向上させる。さらに、コードブック内のベクトルの利用効率を向上させ、離散化プロセスにおける情報損失の問題を解決するために、Fuzzy C-means(FCM)クラスタリングをベースとしたコードブック更新機構を開発した。提案された手法は、Deep Data-Driven Reinforcement Learning for Datasets(D4RL)ベンチマークにおいて評価され、最先端(SOTA)手法と比較して、複数の複雑なタスクにおいてより優れたパフォーマンスを示し、かつより低い計算コストを必要とすることを示した。
Original Content
arXiv:2602.07889v1 Announce Type: new
Abstract: Pseudo-count is an effective anti-exploration method in offline reinforcement learning (RL) by counting state-action pairs and imposing a large penalty on rare or unseen state-action pair data. Existing anti-exploration methods count continuous state-action pairs by discretizing these data, but often suffer from the issues of dimension disaster and information loss in the discretization process, leading to efficiency and performance reduction, and even failure of policy learning. In this paper, a novel anti-exploration method based on Vector Quantized Variational Autoencoder (VQVAE) and fuzzy clustering in offline RL is proposed. We first propose an efficient pseudo-count method based on the multi-codebook VQVAE to discretize state-action pairs, and design an offline RL anti-exploitation method based on the proposed pseudo-count method to handle the dimension disaster issue and improve the learning efficiency. In addition, a codebook update mechanism based on fuzzy C-means (FCM) clustering is developed to improve the use rate of vectors in codebooks, addressing the information loss issue in the discretization process. The proposed method is evaluated on the benchmark of Datasets for Deep Data-Driven Reinforcement Learning (D4RL), and experimental results show that the proposed method performs better and requires less computing cost in multiple complex tasks compared to state-of-the-art (SOTA) methods.