Back to list
TingIS: 大規模企業向けノイズに満ちた顧客インシデントからのリアルタイムリスク事象の検出
TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale
Translated: 2026/4/24 20:29:17
Japanese Translation
arXiv:2604.21889v1 Announce Type: cross
摘要:大規模クラウドネイティブサービスにおいて、技術的異常の検出と防止は不可欠であり、ダウンタイム数分で莫大な金銭的損失とユーザー信頼の低下をもたらす可能性がある。顧客インシデントは、監視によって見逃されたリスクを発見するための重要なシグナルであるが、このデータから実行可能な知見を引き出すのは、極度のノイズ、高いスループット、そして多岐にわたる事業ラインの文脈的複雑さにより、依然として課題である。本稿では、エンタープライズ級のインシデント発見に特化したエンドツーエンドシステムである TingIS を提示する。TingIS の中心には、効率的なインデックス化技術と大型言語モデル (LLMs) をシナジー化し、事象の統合に関する適切な判断を下す多段階事象リンクエンジンが配備されており、これは限られた数の多様なユーザー記述から、実行可能なインシデントを安定して抽出する能力をもたらす。このエンジンには、正確な事業属因を可能にする階層的ルーティング機構と、ドメイン知識、統計パターン、および行動フィルタリングを統合した多次元ノイズ削減パイプラインが補完的に提供されている。ピークスループットが 1 分間に 2,000 件のメッセージを超える、かつ 1 日に 30 万件のメッセージを処理するプロダクション環境で展開された TingIS は、95% の高優先度インシデントの検出率と 3.5 分の P90 警報遅延を達成している。実世界データに基づくベンチマークは、TingIS がルーティング精度、クラスタリング品質、および信号対雑音比においてベースライン手法を大幅に凌駕することを示している。
Original Content
arXiv:2604.21889v1 Announce Type: cross
Abstract: Real-time detection and mitigation of technical anomalies are critical for large-scale cloud-native services, where even minutes of downtime can result in massive financial losses and diminished user trust. While customer incidents serve as a vital signal for discovering risks missed by monitoring, extracting actionable intelligence from this data remains challenging due to extreme noise, high throughput, and semantic complexity of diverse business lines. In this paper, we present TingIS, an end-to-end system designed for enterprise-grade incident discovery. At the core of TingIS is a multi-stage event linking engine that synergizes efficient indexing techniques with Large Language Models (LLMs) to make informed decisions on event merging, enabling the stable extraction of actionable incidents from just a handful of diverse user descriptions. This engine is complemented by a cascaded routing mechanism for precise business attribution and a multi-dimensional noise reduction pipeline that integrates domain knowledge, statistical patterns, and behavioral filtering. Deployed in a production environment handling a peak throughput of over 2,000 messages per minute and 300,000 messages per day, TingIS achieves a P90 alert latency of 3.5 minutes and a 95\% discovery rate for high-priority incidents. Benchmarks constructed from real-world data demonstrate that TingIS significantly outperforms baseline methods in routing accuracy, clustering quality, and Signal-to-Noise Ratio.