Back to list
arxiv_cs_ai 2026年2月10日

誰が報酬を受ける資格があります? SHARP: 多-Agent ディスプレイの信用分配 Optimizer

Who Deserves the Reward? SHARP: Shapley Credit-based Optimization for Multi-Agent System

Translated: 2026/3/7 10:04:06
machine-learningreinforcement-learninglarge-language-modelsmulti-agent-systemdecomposition

Japanese Translation

Large Language Models (LLMs)を外部ツールと連携するマルチエージェントシステムは、複雑で大きな問題を分解して解決するために新しいパラダイムとして素晴らしい可能性があります。しかしこれらのシステムを訓練するのは有名に困難です。信用分配の課題に対する理解が曖昧で、何であるかが成功や失敗からどれだけ影響を及ぼすかによっては特定できません。既存の方法には収まらず稀なかまたは全般的に送信される報酬しかなくて、その成功と失敗を具体的に指し示す個々人の貢献性を捉えずに行っているため効率的なランダム学習が起こることはありません。これらの限界に対抗するため、我々はShapleyに基づいたハイアラーペルフコーションと呼ばれるマルチエージェント強化学習の最優先優れたフレームワークを紹介します。SHARPは、デバイスの特異な利益をトレジャリーユーザー固有のグループ間を通じて正規化することにより最も安定した訓練を実現しています。これは全体的に行われる精度報酬、各エージェントにShapleyに基づく多分量報酬とツールプロセス報酬から構成されています。それは執行の効率を改善するためです。広範な実際のバッファーエンジニアリング業績に関する本 experimentsでは、SHARPは最新の実用的基準に対する高い平均合併改善率(単エージェントおよびマルチエージェント方法への比較で23.66%および14.05%)を示しています。

Original Content

arXiv:2602.08335v1 Announce Type: new Abstract: Integrating Large Language Models (LLMs) with external tools via multi-agent systems offers a promising new paradigm for decomposing and solving complex problems. However, training these systems remains notoriously difficult due to the credit assignment challenge, as it is often unclear which specific functional agent is responsible for the success or failure of decision trajectories. Existing methods typically rely on sparse or globally broadcast rewards, failing to capture individual contributions and leading to inefficient reinforcement learning. To address these limitations, we introduce the Shapley-based Hierarchical Attribution for Reinforcement Policy (SHARP), a novel framework for optimizing multi-agent reinforcement learning via precise credit attribution. SHARP effectively stabilizes training by normalizing agent-specific advantages across trajectory groups, primarily through a decomposed reward mechanism comprising a global broadcast-accuracy reward, a Shapley-based marginal-credit reward for each agent, and a tool-process reward to improve execution efficiency. Extensive experiments across various real-world benchmarks demonstrate that SHARP significantly outperforms recent state-of-the-art baselines, achieving average match improvements of 23.66% and 14.05% over single-agent and multi-agent approaches, respectively.