Back to list
XShare: モデルごとのベクトルを最適化し、MoE 推論の高速化を実現する
XShare: Collaborative in-Batch Expert Sharing for Faster MoE Inference
Translated: 2026/3/15 13:05:47
Japanese Translation
arXiv:2602.07265v1 発表タイプ:新しい
要旨:ミキストオブエキスパート (MoE) アーキテクチャは、大型言語モデルの効率的なスケーリングに広く利用されています。しかし、本番の推論において、リクエストのバッチ処理と推測デコードはエキスパートのアクティベーションを大幅に増大させ、これらの効率向上効果をごく僅かのものまで薄くします。我々は、バッチ意識型エキスパート選択をモジュール化された最適化問題としてモデル化し、異なるデプロイメント環境向けに効率的な貪欲算法を設計することでこの問題を解決しました。提案された手法である XShare は再トレーニングを必要とせず、各バッチに動的に適応し、選択されたエキスパートの合計ゲーティングスコアを最大化します。この手法は、標準的なバッチ処理の下でエキスパートのアクティベーションを最大 30% 削減し、エキスパート並列型デプロイメントにおけるピーク GPU ロードを最大 3 倍に削減するとともに、不斉なデータセットから抽出されたリクエストを含めも、階層型かつ相関意識型のエキスパート選択を通じて推測デコードにおける最大 14% の透過率向上を実現します。
Original Content
arXiv:2602.07265v1 Announce Type: new
Abstract: Mixture-of-Experts (MoE) architectures are increasingly used to efficiently scale large language models. However, in production inference, request batching and speculative decoding significantly amplify expert activation, eroding these efficiency benefits. We address this issue by modeling batch-aware expert selection as a modular optimization problem and designing efficient greedy algorithms for different deployment settings. The proposed method, namely XShare, requires no retraining and dynamically adapts to each batch by maximizing the total gating score of selected experts. It reduces expert activation by up to 30% under standard batching, cuts peak GPU load by up to 3x in expert-parallel deployments, and achieves up to 14% throughput gains in speculative decoding via hierarchical, correlation-aware expert selection even if requests in a batch drawn from heterogeneous datasets.