Back to list
arxiv_cs_lg 2026年2月10日

SERE: 類似性に基づく専門家再ルーティングによる MoE モデルにおける効率的なバッチデコーディング

SERE: Similarity-based Expert Re-routing for Efficient Batch Decoding in MoE Models

Translated: 2026/3/15 14:09:45
mixture-of-expertslarge-language-modelsdecoder-optimizationcuda-kernelllm-serving

Japanese Translation

Mixed-Of-Experts (MoE) アーキテクチャは、スパースアクティベーションを採用し、高密度の大規模言語モデル (LLM) に対しては高速かつ高精度なトレーニングおよび推論を実現します。しかし、本番サービング環境では、ハードウェア効率を最適化するためにバッチ推論が必要となり、それが不要な専門家のアクティベーションを招き、メモリー制限によるデコーディングステージを遅延させる要因となります。バッチデコーディングと専門家スパarsity(疎性)の間にあるこの根本的な緊張関係を解決するために、私たちは、MoE モデルにおける効率的なバッチデコーディングのための類似性に基づく専門家再ルーティング手法「SERE」を提案します。SERE は、トークンタイプに基づいて再ルーティングを行い、2 次専門家のトークンを最も類似した 1 次専門家へ動的に再ルーティングすることで、入力に応じた方式でアクティブな専門家の数を動的に減少させます。さらに、類似性パターンを活用して批判的な専門者を特定し、維持することで能力の低下を防ぎます。SERE は静的な専門家剪定や統合を回避し、代わりにバッチレベルの専門性の重複に基づき動的に専門家スキップを可能にします。また、vLLM への即座のplug-and-play 実装を可能にする、単一バットのコード変更で利用可能なカスタム CUDA コアネル(kernel)を提供します。複数の複雑な推論ベンチマークにおける広範な実験は、SERE が最大 2.0 倍の高速化を実現し、最小限の品質損失をもたらすことを示しています。これは、コスト効率性と低遅延の要件を備えた大規模な MoE 展開に対する実践的な解決策となります。SERE のコード実装は、https://github.com/JL-Cheng/SERE にあります。

Original Content

arXiv:2602.07616v1 Announce Type: new Abstract: Mixture-of-Experts (MoE) architectures employ sparse activation to deliver faster training and inference with higher accuracy than dense LLMs. However, in production serving, MoE models require batch inference to optimize hardware efficiency, which may cause excessive expert activation and thus slow the memory-bound decoding stage. To address the fundamental tension between batch decoding and expert sparsity, we present SERE, a Similarity-based Expert Re-routing method for Efficient batch decoding in MoE models. SERE dynamically reduces the number of active experts in an input-aware manner by re-routing tokens from secondary experts to their most similar primary counterparts. It also leverages similarity patterns to identify and preserve critical experts, thereby preventing capability loss. Notably, SERE avoids static expert pruning or merging, instead enabling dynamic expert skipping based on batch-level expert redundancy. Additionally, we provide an efficient custom CUDA kernel for SERE, enabling plug-and-play use in vLLM with only a single-line code change. Extensive experiments on various complex reasoning benchmarks demonstrate that SERE achieves up to 2.0x speedup with minimal quality loss, providing a practical solution for cost-efficient and latency-sensitive large-scale MoE deployment. Code implementation of SERE can be found in https://github.com/JL-Cheng/SERE.