Back to list
FlexServe: 移動端末向けの柔軟なリソース分離を持つ高速かつ安全な LLM サービングシステム
FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation
Translated: 2026/4/24 20:13:56
Japanese Translation
arXiv:2603.09046v2 Announce Type: replace-cross
摘要:デバイス側の大規模言語モデル(LLM)は指数関数的に成長しており、クラウド側と比較して高いプライバシーと利用可能性を提供しています。LLM 推論の過程では、モデル权重とユーザーデータの両方が貴重であり、攻撃者は OS カーネルを補償してこれらの情報を奪取する可能性があります。ARM TrustZone は、補償された OS から敏感なアプリケーションを保護するために移動端末で事実上のハードウェアベースの分離技術として使用されています。しかし、TrustZone を使用して LLM 推論を保護すると、メモリーと NPU の不柔軟な分離のために著しいオーバーヘッドが生じます。これらの課題に対処するため、この論文は移動端末向けの高速かつ安全な LLM サービングシステム「FlexServe」を導入します。まず、柔軟なリソース分離メカニズムを導入し、柔軟なセキュリティメモリー(Flex-Mem)と柔軟なセキュリティ NPU(Flex-NPU)を構築します。メモリーページと NPU の両方、保護されていないモードと保護されたモードの間に効率的に切り替えることができます。これらのメカニズムに基づき、FlexServe は TrustZone のセキュリティワールド内で高速かつ安全な LLM 推論フレームワークを設計しました。LLM 対応メモリー管理と安全推論パイプラインを導入することで推論を加速し、マルチモデルスケジュールラーを提案してマルチモデルワークフローを最適化しました。私たちは FlexServe のプロトタイプを実装し、2 つの TrustZone ベースの strawman デザインと比較しました。結果は、FlexServe が strawman と比べて平均 $10.05 imes$ の Time to First Token(TTFT)速度向上、パイプラインとセキュリティ NPU を有効にした最適化された strawman に対して平均 $2.44 imes$ の TTFT 速度向上であることを示しています。マルチモデルエージェントワークフローに対しては、strawman と最適化された strawman と比較してそれぞれ最大 $24.30 imes$ と $4.05 imes$ のエンドツーエンドの速度向上をもたらします。
Original Content
arXiv:2603.09046v2 Announce Type: replace-cross
Abstract: Device-side Large Language Models (LLMs) have witnessed explosive growth, offering higher privacy and availability compared to cloud-side LLMs. During LLM inference, both model weights and user data are valuable, and attackers may even compromise the OS kernel to steal them. ARM TrustZone is the de facto hardware-based isolation technology on mobile devices, used to protect sensitive applications from a compromised OS. However, protecting LLM inference with TrustZone incurs significant overhead due to its inflexible isolation of memory and the NPU. To address these challenges, this paper introduces FlexServe, a fast and secure LLM serving system for mobile devices. It first introduces a Flexible Resource Isolation mechanism to construct Flexible Secure Memory (Flex-Mem) and Flexible Secure NPU (Flex-NPU). Both memory pages and the NPU can be efficiently switched between unprotected and protected modes. Based on these mechanisms, FlexServe designs a fast and secure LLM inference framework within TrustZone's secure world. The LLM-Aware Memory Management and Secure Inference Pipeline are introduced to accelerate inference. A Multi-Model Scheduler is proposed to optimize multi-model workflows. We implement a prototype of FlexServe and compare it with two TrustZone-based strawman designs. The results show that FlexServe achieves an average $10.05\times$ speedup in Time to First Token (TTFT) compared to the strawman, and an average $2.44\times$ TTFT speedup compared to an optimized strawman with pipeline and secure NPU enabled. For multi-model agent workflows, the end-to-end speedup is up to $24.30\times$ and $4.05\times$ compared to the strawman and optimized strawman, respectively.