Back to list
Heterogeneous Edge Device 向けの LLM インフェrens 加速のためのコンパイラ支援推測サンプリング
Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices
Translated: 2026/3/15 15:01:36
Japanese Translation
arXiv:2602.08060v1 Announce Type: new
要約: リソース制約のあるエッジデバイス上の LLM 展開は、特に遅延応答が安全性や使いやす性を損なう可能性があるリアルタイムアプリケーションにおいて、厳格な遅延制約に直面しています。シークウェンシャルなトークンごとの生成の非効率性を緩和する手法の多くの中で、推測デコード (SD) が有望な技術として現れました。しかし、エッジでの SD は、(1) パフォーマンスやプログラマビリティを犠牲せずにコンパイラベースのワークフローに SD を統合し、(2) 現代的な SoC の異種計算リソースを細心の注意を払ったパーティショニング戦略を通じて活用するという、2 つの主要な課題に直面しています。本研究は、これらの課題を解決するために、異種ハードウェア構成を探索し LLM サブグラフの粗粒度パーティショニングを誘導する解析コストモデルを用いています。特に、エッジ特有の短い入力シーケンス長を対象としています。このコストモデルは推測サンプリングと異種実行が相互に有益な時機を予測し、1 コア 6 つの Cortex-A CPU と Mali GPU を備えたエッジデバイスで検証され、翻訳タスクにおいて最大 1.68 倍の速度向上が確認されました。これは解析的予測とよく一致しています。
Original Content
arXiv:2602.08060v1 Announce Type: new
Abstract: LLM deployment on resource-constrained edge devices faces severe latency constraints, particularly in real-time applications where delayed responses can compromise safety or usability. Among many approaches to mitigate the inefficiencies of sequential token-by-token generation, Speculative Decoding (SD) has emerged as a promising technique. However, SD at the edge is hindered by two major challenges: (1) integrating SD into a compiler-based workflow without sacrificing performance or programmability, and (2) exploiting the heterogeneous compute resources of modern SoCs through carefully designed partitioning strategies. This work addresses these challenges by using an analytical cost model that explores heterogeneous hardware configurations and guides coarse-grained partitioning of LLM subgraphs, particularly with edge-typical short input sequence lengths. The cost model predicts when speculative sampling and heterogeneous execution are jointly beneficial and is validated on an edge device featuring a hexacore Cortex-A CPU and a Mali GPU, revealing up to 1.68$\times$ speedup for translation tasks, closely matching analytic expectations.