Back to list
価値体系の学習:多目標強化学習と優先付けに基づき社会の価値体系を扱う
Learning the Value Systems of Societies with Preference-based Multi-objective Reinforcement Learning
Translated: 2026/3/15 8:09:27
Japanese Translation
arXiv:2602.08835v1 Announce Type: cross
摘要:価値意識のある AI は、人間価値を認識し、異なるユーザーの価値体系(価値に基づく好ましさ)に適応する必要がある。これは価値の実用化を要し、これは誤解訂のリスクを伴う。価値の社会的特性は、価値体系が多様であってもグループ間でパターンを示すという事実を前提とし、その表現は複数のユーザーに適合しなければならない。順序決断制において、多様なエージェントの演示から異なる目標や価値に対するパーソナライゼーションに向けた努力がなされている。しかし、これらのアプローチは手動で設計された特徴を必要としたり、価値に基づく解釈可能性や多様なユーザー好ましさに適応しないりする欠点がある。
私たちは、マルコフ決定過程(MDPs)におけるエージェント社会の価値一致と価値体系のモデルを、クラスタリングと優先付けに基づいた多目標強化学習(PbMORL)に基づき学習するアルゴリズムを提案する。私たちは、社会的に導かれた価値一致モデル(ガウンディング)と、エージェント社会における異なるユーザーグループ(クラスター)を簡潔に表す価値体系のセットを同時に学習する。各クラスターは、メンバーの価値に基づく好ましさを表す価値体系と、この価値体系に一致する行動を反映する大まかにパラレート最優政策から構成される。私たちは、2 つの人間の価値を持つ MDPS で、最先端の PbMORL アルゴリズムとベネラインに対して我々の方法を評価した。
Original Content
arXiv:2602.08835v1 Announce Type: cross
Abstract: Value-aware AI should recognise human values and adapt to the value systems (value-based preferences) of different users. This requires operationalization of values, which can be prone to misspecification. The social nature of values demands their representation to adhere to multiple users while value systems are diverse, yet exhibit patterns among groups. In sequential decision making, efforts have been made towards personalization for different goals or values from demonstrations of diverse agents. However, these approaches demand manually designed features or lack value-based interpretability and/or adaptability to diverse user preferences.
We propose algorithms for learning models of value alignment and value systems for a society of agents in Markov Decision Processes (MDPs), based on clustering and preference-based multi-objective reinforcement learning (PbMORL). We jointly learn socially-derived value alignment models (groundings) and a set of value systems that concisely represent different groups of users (clusters) in a society. Each cluster consists of a value system representing the value-based preferences of its members and an approximately Pareto-optimal policy that reflects behaviours aligned with this value system. We evaluate our method against a state-of-the-art PbMORL algorithm and baselines on two MDPs with human values.