Back to list
スケーラブルな AI インフェレンス:AI モデルセービングのパフォーマンス分析と最適化
Scalable AI Inference: Performance Analysis and Optimization of AI Model Serving
Translated: 2026/4/24 19:58:51
Japanese Translation
arXiv:2604.20420v1 Announce Type: new
要旨:AI 研究はモデル設計やアルゴリズムの性能に焦点を当てがちがうに、デプロイやインフェレンスは実世界での利用が不可欠であるにもかかわらず比較的探求されていません。本調査では、graphworks.ai と協力して開発されたスケーラブルなモデルセービング用の BentoML ベースの AI インフェレンスシステムの性能と最適化を調査し、そのギャップを埋めます。評価はまず、3 つの現実的なワークロードシナリオ下でのベースライン性能を確立します。公平かつ再現性の高い評価を確保するため、実験全体で事前トレーニングされた RoBERTa 感情分析モデルを使用します。システムはガンマ分布と指数分布に従うトラフィックパターメントに曝され、定常、スパイク、および高密度のワークロードを含む実世界の利用状況を擬態します。遅延パーセンタイルやスループットなど、重要なパフォーマンスメトリクスを収集し、インフェレンスパイプラインのボトルネックを特定します。ベースライン結果に基づき、効率性とスケーラビリティを向上させるために、セービングスタックの複数レベルで最適化戦略が導入されます。最適化されたシステムは同じワークロード条件下で再評価され、結果は統計分析を用いてベースラインと比較して適用された改善の影響を定量化します。見解は、BentoML を用いた効率的かつスケーラブルな AI インフェレンスを実現する実践的な戦略を示します。本研究では、異なるワークロード下での遅延とスループットのスケール、ランタイム、サービス、デプロイメントレベルにおける最適化が応答時間に与える影響、および単ノード K3s クラスタにおけるデプロイメントが断続時の回復力に与える影響を検討します。
Original Content
arXiv:2604.20420v1 Announce Type: new
Abstract: AI research often emphasizes model design and algorithmic performance, while deployment and inference remain comparatively underexplored despite being critical for real-world use. This study addresses that gap by investigating the performance and optimization of a BentoML-based AI inference system for scalable model serving developed in collaboration with graphworks.ai. The evaluation first establishes baseline performance under three realistic workload scenarios. To ensure a fair and reproducible assessment, a pre-trained RoBERTa sentiment analysis model is used throughout the experiments. The system is subjected to traffic patterns following gamma and exponential distributions in order to emulate real-world usage conditions, including steady, bursty, and high-intensity workloads. Key performance metrics, such as latency percentiles and throughput, are collected and analyzed to identify bottlenecks in the inference pipeline. Based on the baseline results, optimization strategies are introduced at multiple levels of the serving stack to improve efficiency and scalability. The optimized system is then reevaluated under the same workload conditions, and the results are compared with the baseline using statistical analysis to quantify the impact of the applied improvements. The findings demonstrate practical strategies for achieving efficient and scalable AI inference with BentoML. The study examines how latency and throughput scale under varying workloads, how optimizations at the runtime, service, and deployment levels affect response time, and how deployment in a single-node K3s cluster influences resilience during disruptions.