Back to list
スパースミックス・オブ・エキスパートの台頭:アルゴリズム的基礎から分散アーキテクチャ、および垂直ドメインへの適用へ:包括的レビュー
The Rise of Sparse Mixture-of-Experts:A Survey from Algorithmic Foundations to Decentralized Architectures and Vertical Domain Applications
Translated: 2026/3/15 14:50:22
Japanese Translation
arXiv:2602.08019v1 発表タイプ:新規
要約:スパースミックス・オブ・エキスパート(MoE)アーキテクチャは、深層学習モデルのパラメータ規模を拡大し、同等の計算コストを維持する強力なアプローチとして進化しました。大型言語モデル(LLM)の重要な分野として、MoE モデルはルーティングネットワークに基づいてエクスパートのサブセットのみを活性化します。このスパース条件計算機機能は、計算効率を大幅に向上させ、スケーラビリティとコスト効率の向上に向けた有望な道筋を築きました。これにより、自然言語処理、コンピュータビジョン、マルチモーダル処理などの横方向の様々な分野における下流アプリケーションだけでなく、垂直分野においても広範な適用性を示しています。しかし、ドメインにわたる MoE モデルの普及と応用にもかかわらず、多くの重要な分野における MoE の最近の進展について体系的な探求が不足しています。既存の MoE に関する調査は、カバー範囲の不足や主要領域への十分な探求の欠如など、制限に悩まされています。本調査はこのギャップを埋めることを目指しています。この論文において、まず MoE の基礎的な原理を検討し、その核心となる要素であるルーティングネットワークとエキスパートネットワークに深掘りを行いました。次に、分散パラダイムを中央集権的パラダイムを超えて拡張し、分散インフラストラクチャの巨額の未開発のポテンシャルを unlocked(解放)し、MoE 開発の民主化をより広いコミュニティに実現し、さらに高いスケーラビリティとコスト効率をもたらします。さらに、垂直分野への応用を探求することに重点を置きます。最後に、主要な課題と有望な将来の研究方向を特定しました。私の知るところでは、この調査が MoE 分野における最も包括的なレビューであることは間違いないでしょう。この論文は研究者と実践者双方にとって有益なリソースとなり、最新の進展をナビゲートして理解するのに役立ちます。
Original Content
arXiv:2602.08019v1 Announce Type: new
Abstract: The sparse Mixture of Experts(MoE) architecture has evolved as a powerful approach for scaling deep learning models to more parameters with comparable computation cost. As an important branch of large language model(LLM), MoE model only activate a subset of experts based on a routing network. This sparse conditional computation mechanism significantly improves computational efficiency, paving a promising path for greater scalability and cost-efficiency. It not only enhance downstream applications such as natural language processing, computer vision, and multimodal in various horizontal domains, but also exhibit broad applicability across vertical domains. Despite the growing popularity and application of MoE models across various domains, there lacks a systematic exploration of recent advancements of MoE in many important fields. Existing surveys on MoE suffer from limitations such as lack coverage or none extensively exploration of key areas. This survey seeks to fill these gaps. In this paper, Firstly, we examine the foundational principles of MoE, with an in-depth exploration of its core components-the routing network and expert network. Subsequently, we extend beyond the centralized paradigm to the decentralized paradigm, which unlocks the immense untapped potential of decentralized infrastructure, enables democratization of MoE development for broader communities, and delivers greater scalability and cost-efficiency. Furthermore we focus on exploring its vertical domain applications. Finally, we also identify key challenges and promising future research directions. To the best of our knowledge, this survey is currently the most comprehensive review in the field of MoE. We aim for this article to serve as a valuable resource for both researchers and practitioners, enabling them to navigate and stay up-to-date with the latest advancements.