Back to list
arxiv_cs_lg 2026年2月10日

リスク感受性指数行動評価機

Risk-Sensitive Exponential Actor Critic

Translated: 2026/3/15 13:04:32
risk-sensitive-actor-criticdeep-reinforcement-learningpolicy-gradiententropic-risk-measuremodel-free

Japanese Translation

arXiv:2602.07202v1 Announce Type: new 概要:モデルフリーの深層強化学習(RL)アルゴリズムは、多様な挑戦的なタスクにおいて多大な成功を収めていますが、これらを現実世界のアプリケーションに適用した際、安全性に関する懸念が残っており、リスク意識的なエージェントを必要としています。このようなリスク意識的なエージェントを学習するための一般的な効用関数はエントロピックリスク測度ですが、現在のこの測度を最適化するポルシグレース方法は高い分散を伴うかつ数値的不安定な更新を伴います。その結果、既存のリスク感受性モデルフリーアプローチは単純なタスクやテーブル設定に制限されています。本論文では、エントロピックリスク測度におけるポルシグレース方法に対して包括的な理論的裏付けを提供し、確率的および確定的なポルシの両方の設定に適用されるオン・オフポリシーグレース定理を含んでいます。理論への動機から、我々は指数関数的価値関数とその勾配の明示的表現を回避するための新しい手続きを統合し、エントロピックリスク測度に対してそのポルシを最適化するオフポリシーモデルフリーアプローチであるリスク感受性指数行動評価機(rsEAC)を提案しました。rsEAC は既存のアプローチと比較してより数値的に安定な更新を生み出すことを示し、MuJoCo の連続タスクのリスク感受性バリエーションにおいて、リスク感受性なポルシを確実に学習することが示されました。

Original Content

arXiv:2602.07202v1 Announce Type: new Abstract: Model-free deep reinforcement learning (RL) algorithms have achieved tremendous success on a range of challenging tasks. However, safety concerns remain when these methods are deployed on real-world applications, necessitating risk-aware agents. A common utility for learning such risk-aware agents is the entropic risk measure, but current policy gradient methods optimizing this measure must perform high-variance and numerically unstable updates. As a result, existing risk-sensitive model-free approaches are limited to simple tasks and tabular settings. In this paper, we provide a comprehensive theoretical justification for policy gradient methods on the entropic risk measure, including on- and off-policy gradient theorems for the stochastic and deterministic policy settings. Motivated by theory, we propose risk-sensitive exponential actor-critic (rsEAC), an off-policy model-free approach that incorporates novel procedures to avoid the explicit representation of exponential value functions and their gradients, and optimizes its policy w.r.t the entropic risk measure. We show that rsEAC produces more numerically stable updates compared to existing approaches and reliably learns risk-sensitive policies in challenging risky variants of continuous tasks in MuJoCo.