Back to list
Efficient and Adaptable Detection of Malicious LLM Prompts via Bootstrap Aggregation
Efficient and Adaptable Detection of Malicious LLM Prompts via Bootstrap Aggregation
Translated: 2026/3/15 15:01:42
Japanese Translation
arXiv:2602.08062v1 Announce Type: new
摘要: 大規模言語モデル (LLMs) は、自然言語の理解、推論、生成において顕著な能力を示しました。しかし、これらのシステムは、悪意のあるリクエスト、ジェイルブレイク手法、プロンプトインジェクション攻撃などを通じて、危険な行動やポリシー違反を誘発する悪意のあるプロンプトに対して依然として脆弱です。既存の防御策は本質的な限界に直面しており:ブラックボックス型の監視 API は透明性が低く、進化し続ける脅威に適応するのが困難である一方、大規模 LLM によるジャッジを用いたホワイトボックスアプローチは、膨大な計算コストをかけ、新たな攻撃への対応には高価な再学習を必要とします。現在のシステムは、パフォーマンス、効率性、適応力の間で設計者を選ぶことを強要しています。
これらの課題に対処するため、当社は悪意のあるプロンプト検出のためのモジュール化された軽量で逐次更新可能な枠組みである「BAGEL(Bootstrap AGgregated Ensemble Layer)」を提案します。BAGEL は、異なる攻撃データセットにそれぞれ特化した微調整済みモデルからなる、ブートストラップ統合とエキスパート混合に由来するアンサンブル法を採用しています。推論時、BAGEL はランダムフォレストルーティングを利用し、最も適したアンサンブルメンバーを特定し、その後予測の統合のために追加メンバーを確率的にサンプリングします。新しい攻撃が出現した際、BAGEL は、8600 万パラメータの小さなプロンプト安全性分類器を微調整し、それをアンサンブルに追加することで逐次更新します。BAGEL は、アンサンブルメンバーを 5 つ(合計 4.3 億パラメータ)で選択することで F1 スコアを 0.92 に達成し、数十億パラメータが必要な OpenAI Moderation API や ShieldGemma を凌駕しています。パフォーマンスは 9 回の逐次更新後も依然として堅牢さを保ち、ルーティングの構造的な特徴を通じて解釈可能性も提供しています。当社の研究結果は、小さい微調整済み分類器のアンサンブルが、数十億パラメータのガードレールと同等あるいはそれ以上の性能を発揮できる一方で、プロダクションシステムに求められる適応性と効率性を備えており、これらを実現できることを示しています。
Original Content
arXiv:2602.08062v1 Announce Type: new
Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in natural language understanding, reasoning, and generation. However, these systems remain susceptible to malicious prompts that induce unsafe or policy-violating behavior through harmful requests, jailbreak techniques, and prompt injection attacks. Existing defenses face fundamental limitations: black-box moderation APIs offer limited transparency and adapt poorly to evolving threats, while white-box approaches using large LLM judges impose prohibitive computational costs and require expensive retraining for new attacks. Current systems force designers to choose between performance, efficiency, and adaptability.
To address these challenges, we present BAGEL (Bootstrap AGgregated Ensemble Layer), a modular, lightweight, and incrementally updatable framework for malicious prompt detection. BAGEL employs a bootstrap aggregation and mixture of expert inspired ensemble of fine-tuned models, each specialized on a different attack dataset. At inference, BAGEL uses a random forest router to identify the most suitable ensemble member, then applies stochastic selection to sample additional members for prediction aggregation. When new attacks emerge, BAGEL updates incrementally by fine-tuning a small prompt-safety classifier (86M parameters) and adding the resulting model to the ensemble. BAGEL achieves an F1 score of 0.92 by selecting just 5 ensemble members (430M parameters), outperforming OpenAI Moderation API and ShieldGemma which require billions of parameters. Performance remains robust after nine incremental updates, and BAGEL provides interpretability through its router's structural features. Our results show ensembles of small finetuned classifiers can match or exceed billion-parameter guardrails while offering the adaptability and efficiency required for production systems.