Back to list
arxiv_cs_ai 2026年4月24日

Stream2LLM: オブザーブ・コンテキストストリーミングとプリフィルによる TTFT(初生成までの時間)の低減

Stream2LLM: Overlap Context Streaming and Prefill for Reduced Time-to-First-Token (TTFT)

Translated: 2026/4/24 20:35:25
streamingllmprefillinferencescheduling

Japanese Translation

arXiv:2604.16395v2 Announce Type: replace-cross 要約:LLM 推論用のコンテキストリトリバルシステムには、高いリトリバルレイテンシが初生成までの時間(TTFT)と質のバランスを取る根本的な課題を生み出しています。コンテキストをストリーミングで漸次提供し、リトリバルと推論を同時実行することでこのレイテンシを緩和できますが、同時実行リクエストを導入すると GPU 計算とメモリを競合させ、動的なコンテキスト到着に合わせたスケジューリングが必須となります。 本稿では、同時実行用プリフィル・デコード解耦デプロイ向けにストリーミング認識の LLM サービングシステム「Stream2LLM」を提案します。Stream2LLM は、追加モード(漸進的なコンテキスト蓄積)と更新モード(キャッシュ無効化伴う反復的微細調整)の 2 つの異なるリトリバルパターン向けに、適応型スケジューリングと先読みを実装しています。スケジューリング判断とリソース取得を分離することで、ハードウェア固有のコストモデルに基づく柔軟な先読み戦略を可能にし、入力の変化に対して冗長計算を最小化するために共通接頭辞一致を適用しています。 評価のためには、ウェブクローリングと近似最近傍検索に基づく 2 つの大規模リアル世界のストリーミングワークロードを収集しました。評価結果は、ストリーミングアーキテクチャが最大 11 倍の TTFT 改善を実現し、記憶圧下においてはコスト意識型のスケジューリングが不可欠な利点をもたらし、非ストリーミングベースラインとの透過率パラリティを維持したことを示しています。 コード: https://github.com/rajveerb/stream2llm/tree/mlsys_artifact

Original Content

arXiv:2604.16395v2 Announce Type: replace-cross Abstract: Context retrieval systems for LLM inference face a critical challenge: high retrieval latency creates a fundamental tension between waiting for complete context (poor time-to-first-token) and proceeding without it (reduced quality). Streaming context incrementally--overlapping retrieval with inference--can mitigate this latency, but doing so with concurrent requests introduces new challenges: requests contend for GPU compute and memory, and scheduling must adapt to dynamic context arrivals. We present Stream2LLM, a streaming-aware LLM serving system for concurrent prefill-decode disaggregated deployments. Stream2LLM introduces adaptive scheduling and preemption for two distinct retrieval patterns: append-mode (progressive context accumulation) and update-mode (iterative refinement with cache invalidation). It decouples scheduling decisions from resource acquisition, enabling flexible preemption strategies guided by hardware-specific cost models, and uses longest common prefix matching to minimize redundant computation when input changes dynamically. To evaluate Stream2LLM, we collect two large-scale, real-world streaming workloads based on web crawling and approximate nearest neighbor search. Our evaluation demonstrates that streaming architecture delivers up to 11x TTFT improvements, with cost-aware scheduling providing critical benefits under memory pressure, all while maintaining throughput parity with non-streaming baselines. Code: https://github.com/rajveerb/stream2llm/tree/mlsys_artifact