Back to list
arxiv_cs_ai 2026年2月10日

リエディング リタイベーシング・ドーパイン・オブ・サービス: LLM のための セッショナル スキーマの攻撃ではなく、モデル自体を攻撃しない

Rethinking Latency Denial-of-Service: Attacking the LLM Serving Framework, Not the Model

Translated: 2026/3/7 13:15:40

Japanese Translation

大規模言語モデル(Large Language Models, LLMs)には、新たなと非常に重要で懸念される脅威である遅延攻撃が存在します。LLMの推論は一般的に高コストなため、僅かでも遅くなることで稼働コストやセキュリティリスクが急増します。 最近では、アルゴリズムの複雑さを狙う最悪出力を誘発する攻撃について数多くの研究が行われてきました。しかし、我々はこの典型的なアルゴリズムの遅延攻撃に対する現代のLLM推論ライブラリの保護策はほとんど無効であるという反省的な結果を報告しました。 詳細については申し分ありません。システムレベルでの最適化(例えば継続的なバッチ処理を使用)によって、個々のユーザーが同域で直交して影響を受けないように「ログカル」な隔離が可能になります。これらとは別に、我々はアルゴリズム層からスキーマ層へ焦点を移し、「フィルとスqueeze」攻撃戦略を提案します。これはユーザーコンテンツグローバルキューとKVキャッシュを最初にフラッピアップしてヘッドオブリーク封锁を誘発、次にシステムを繰り返しの「プレミプリング」へと強制的に動かすことです。 簡単なテキストプロンプトからより複雑で詳細なプロンプティングまで、出力を調整する手段は多種多様ですが、メモリーステータスへのサイドチャネルの探索を利用して作戦をブラックボックス設定の一部にすることが可能です。また、従来の攻撃では平均的に20~280倍速度遅くなるテキストで一言出力までの時間あるいはテキスト単位平均速度遅くなる約1.5-4倍までの一文生成時間を遅らせることができます。 我々はこの攻撃が、30-40%の割引する通常の攻撃コストだけでこのような結果を生むことを数多くの評価で証明しました。

Original Content

arXiv:2602.07878v1 Announce Type: cross Abstract: Large Language Models face an emerging and critical threat known as latency attacks. Because LLM inference is inherently expensive, even modest slowdowns can translate into substantial operating costs and severe availability risks. Recently, a growing body of research has focused on algorithmic complexity attacks by crafting inputs to trigger worst-case output lengths. However, we report a counter-intuitive finding that these algorithmic latency attacks are largely ineffective against modern LLM serving systems. We reveal that system-level optimization such as continuous batching provides a logical isolation to mitigate contagious latency impact on co-located users. To this end, in this paper, we shift the focus from the algorithm to the system layer, and introduce a new Fill and Squeeze attack strategy targeting the state transition of the scheduler. "Fill" first exhausts the global KV cache to induce Head-of-Line blocking, while "Squeeze" forces the system into repetitive preemption. By manipulating output lengths using methods from simple plain-text prompts to more complex prompt engineering, and leveraging side-channel probing of memory status, we demonstrate that the attack can be orchestrated in a black-box setting with much less cost. Extensive evaluations indicate by up to 20-280x average slowdown on Time to First Token and 1.5-4x average slowdown on Time Per Output Token compared to existing attacks with 30-40% lower attack cost.