Back to list
サイバー防御ベンチマーク:SOC オペレーター向けに大規模言語モデルエージェントによる脅威検知性能評価
Cyber Defense Benchmark: Agentic Threat Hunting Evaluation for LLMs in SecOps
Translated: 2026/4/24 20:35:41
Japanese Translation
arXiv:2604.19533v3 Announce Type: replace-cross
要約:私たちは、大規模言語モデル(LLM)エージェントの脅威検知性能を評価するベンチマーク、「サイバー防御ベンチマーク」を導入しました。このベンチマークは、任意のガイドラインやヒントなしに、生の Windows エベントログのデータベースから、悪意のあるエベントの正確な時刻を特定するという SOC 分析家の中心的タスクを評価します。
このベンチマークは、OTRF Security-Datasets コアパスから抽出された 106 つの実際の攻撃手順を、12 つの戦術に跨る 86 つの MITRE ATT&CK サブ技術を含む、Gymnasium 強化学習環境にパッケージ化しています。各エピソードにおいて、エージェントは、決定論的なキャンペーンシミュレータが原始記録をタイムシフトとエンティティ混淆処理した結果、75,000-135,000 件のエベントログをインメモリ SQLite データベースとして生成し、その中の悪意のあるエベントの時刻を逐次 SQL クエリを通じて発見し、明示的にフラグを付けなければならないことがあります。そのスコアリングは、Sigma ルールから導出された真の基準に対して CTF スタイルで実行されます。
26 つのキャンペーン(106 つのもののうち 105 つの手順に相当)を含む 5 つの最先端モデル(Claude Opus 4.6、GPT-5、Gemini 3.1 Pro、Kimi K2.5、Gemini 3 Flash)を評価した結果、すべてのモデルが劇的に失敗しました。最善のモデル(Claude Opus 4.6)でも、悪意のあるエベントの 3.8% のみに対してフラグを正しく提出するのみであり、どのモデルでもすべてのフラグを検出することはありませんでした。
私たちは、ATT&CK 戦術すべてに対して >=50% のリコールを通過するスコアを合格点と定義しました。これは、監視型 SOC 展開の最低基準です。どのモデルも合格できませんでした。リーダーは 13 つの戦術のうち 5 つのみをクリアし、残りの 4 つはゼロを記録しました。
これらの結果は、大規模言語モデルが、高度に最適化されたセキュリティ Q&A ベンチマークでの卓越したパフォーマンスにもかかわらず、オープンエンドかつ証拠に基づく脅威検知に不適切である可能性を示唆しています。
Original Content
arXiv:2604.19533v3 Announce Type: replace-cross
Abstract: We introduce the Cyber Defense Benchmark, a benchmark for measuring how well large language model (LLM) agents perform the core SOC analyst task of threat hunting: given a database of raw Windows event logs with no guided questions or hints, identify the exact timestamps of malicious events.
The benchmark wraps 106 real attack procedures from the OTRF Security-Datasets corpus - spanning 86 MITRE ATT&CK sub-techniques across 12 tactics - into a Gymnasium reinforcement-learning environment. Each episode presents the agent with an in-memory SQLite database of 75,000-135,000 log records produced by a deterministic campaign simulator that time-shifts and entity-obfuscates the raw recordings.
The agent must iteratively submit SQL queries to discover malicious event timestamps and explicitly flag them, scored CTF-style against Sigma-rule-derived ground truth.
Evaluating five frontier models - Claude Opus 4.6, GPT-5, Gemini 3.1 Pro, Kimi K2.5, and Gemini 3 Flash - on 26 campaigns covering 105 of 106 procedures, we find that all models fail dramatically: the best model (Claude Opus 4.6) submits correct flags for only 3.8% of malicious events on average, and no run across any model ever finds all flags.
We define a passing score as >= 50% recall on every ATT&CK tactic - the minimum bar for unsupervised SOC deployment. No model passes: the leader clears this bar on 5 of 13 tactics and the remaining four on zero.
These results suggest that current LLMs are poorly suited for open-ended, evidence-driven threat hunting despite strong performance on curated Q&A security benchmarks.