Back to list
arxiv_cs_ai 2026年2月10日

Kubernetesのパフォーマンス評価:自動音声認識からLLMのサマリーまで生成AI推理を介して

Evaluating Kubernetes Performance for GenAI Inference: From Automatic Speech Recognition to LLM Summarization

Translated: 2026/2/14 8:19:10

Japanese Translation

Abstract: 生成型AI(GenAI)、特に推論は、急速に出現し dominant workload categoryとして Emergentな地位を獲得しています.この業界用紙では,Kubernetes ワールドワイド系コミュニティがそのユニークな要件に対応するために産声するととともに,展開に注力していることを示します.この業界用紙は、新たなKubernetesワールドワイド系プロジェクトを組み合わせることで,デッキのクラウドコンテナ化オーケストレーションであるスケーラビリティとリソース効率などの収益性が高いパフォーマンスを提供する能力に焦点を当て、複雑なAIプロセス全体に対する優れたサポートを持つことを示します. まず,Kueueを使用して、配信されたラディオファイルをWhisperモデルで録音し、Dynamic Accelerator Slicer (DAS)を使って最大の並列ジョブ実行を行います。次に,離散的なオンライン推論シナリオについては,録音したトランクリンクを大型言語モデルからサマリーを生成するため、最新技術で進化しているKubernetes Gateway API 推論拡張(GAIE)を使用してllm-dを設定することで解決します.これらの補完的なコンポーネント(Kueue、DAS、GAIE)、そしてその他の機能により形成された統合したパフォーマンスプラットフォームが示されますが、それらはKubernetesがDemanding GenAIワークロードのための共通で高性能な基盤になることを証明していることが示されます: Kueueは到達ステイクまでの総実行時間を最大15%減速し、DASは平均ジョブの完了時間短縮を36%、GAIEは最初のトークンまでのタイムを82%改善しました.

Original Content

arXiv:2602.04900v2 Announce Type: replace-cross Abstract: As Generative AI (GenAI), particularly inference, rapidly emerges as a dominant workload category, the Kubernetes ecosystem is proactively evolving to natively support its unique demands. This industry paper demonstrates how emerging Kubernetes-native projects can be combined to deliver the benefits of container orchestration, such as scalability and resource efficiency, to complex AI workflows. We implement and evaluate an illustrative, multi-stage use case consisting of automatic speech recognition and summarization. First, we address batch inference by using Kueue to manage jobs that transcribe audio files with Whisper models and Dynamic Accelerator Slicer (DAS) to increase parallel job execution. Second, we address a discrete online inference scenario by feeding the transcripts to a Large Language Model for summarization hosted using llm-d, a novel solution utilizing the recent developments around the Kubernetes Gateway API Inference Extension (GAIE) for optimized routing of inference requests. Our findings illustrate that these complementary components (Kueue, DAS, and GAIE) form a cohesive, high-performance platform, proving Kubernetes' capability to serve as a unified foundation for demanding GenAI workloads: Kueue reduced total makespan by up to 15%; DAS shortened mean job completion time by 36%; and GAIE improved Time to First Token by 82\%.