Back to list
スーパーアプリエル:1 チェックポイント、多くのスループット
Super Apriel: One Checkpoint, Many Speeds
Translated: 2026/4/24 19:54:51
Japanese Translation
arXiv:2604.19877v1 Announce Type: new
Abstract: 私たちがスーパーアプリエル、全decoder層に4つのトレーニング済みミキサー選択(フルアテンション [FA]、スライディングウィンドウアテンション [SWA]、キミデルタアテンション [KDA]、およびゲート付きデルタネット [GDN])を提供する150億パラメータのスーパーネットをリリースします。配置は各層の1つのミキサーを選択し、要求に応じてスエビング時で重みを再読み込みなしでスイッチ切り替え可能です。これにより、単一チェックポイントから複数のスループットプリセットを利用できます。共有チェックポイントは、別々のダRAFTモデルなしで仮推論デコーディングを可能にします。全FAプリセットは、報告されたすべてのベンチマークで教師モデルであるアプリエル1.6と一致し、推奨されるハイブリッドプリセットは96%から77%の品質保持において$2.9 imes$から$10.7 imes$のデコーディングスループットを提供します。さらに、スラング长度が長くなるほどその利点は蓄積します。48層に4つのミキサータイプを持つため、構成空間は膨大です。各層のミキサー割り当てから配置品質を予測する代替モデルが、スループット品質のランドスケープを管理可能にし、各スループットレベルでの最適なトレードオフを識別します。各スループットレベルで最も優れた構成をトレーニング初期に特定できるか、またはコンバージェンス后才に特定できるかを調査します。ランクは0.5B規模では迅速に安定しますが、15Bでは最も効率的な構成は不安定さを示し、小型モデルからの外挿を警戒させます。スーパーアプリエルは、凍結されたアプリエル1.6教師モデルからのランダムな蒸馏に続き、監督付き微調整でトレーニングされました。私たちはスーパーネットの重み、Fast-LLMトレーニングコード、vLLM提供コード、および配置最適化ツールキットをリリースしました。
Original Content
arXiv:2604.19877v1 Announce Type: new
Abstract: We release Super Apriel, a 15B-parameter supernet in which every decoder layer provides four trained mixer choices -- Full Attention (FA), Sliding Window Attention (SWA), Kimi Delta Attention (KDA), and Gated DeltaNet (GDN). A placement selects one mixer per layer; placements can be switched between requests at serving time without reloading weights, enabling multiple speed presets from a single checkpoint. The shared checkpoint also enables speculative decoding without a separate draft model. The all-FA preset matches the Apriel 1.6 teacher on all reported benchmarks; recommended hybrid presets span $2.9\times$ to $10.7\times$ decode throughput at 96% to 77% quality retention, with throughput advantages that compound at longer context lengths. With four mixer types across 48 layers, the configuration space is vast. A surrogate that predicts placement quality from the per-layer mixer assignment makes the speed-quality landscape tractable and identifies the best tradeoffs at each speed level. We investigate whether the best configurations at each speed level can be identified early in training or only after convergence. Rankings stabilize quickly at 0.5B scale, but the most efficient configurations exhibit higher instability at 15B, cautioning against extrapolation from smaller models. Super Apriel is trained by stochastic distillation from a frozen Apriel 1.6 teacher, followed by supervised fine-tuning. We release the supernet weights, Fast-LLM training code, vLLM serving code, and a placement optimization toolkit.