Back to list
アダプティブなインストラクションコンポジションを用いた自動 LLM レッドチームイング
Adaptive Instruction Composition for Automated LLM Red-Teaming
Translated: 2026/4/24 20:24:08
Japanese Translation
arXiv:2604.21159v1 Announce Type: cross
Abstract: LLM レッドチームイングの多くは、ターゲットに対してジャイルブレイクを発見するために攻撃者用 LLM を活用しています。いくつかのアプローチは、試行錯誤を通じて効果的な戦略を特定させる攻撃者に業務を委託し、その結果としてセマンティックに制限された成功範囲が生じます。別のアプローチは、 crowdsourced 有害クエリとタクトを組み合わせ、攻撃者用のインストラクションとして作成しますが、これはランダムに行われるため効果性が制限されています。本稿では、効果性と多様性を合わせて最適化するようにトレーニングされたアダプティブなメカニズムに基づいて crowdsourced テキストを組み合わせるという新しい枠組み、アダプティブなインストラクションコンポジションを導入します。我々は、強化学習(RL)を用いて、インストラクションの組み合わせ空間における探索と利用のバランスを取り、ターゲットの脆弱性に応じて多様な生成を行う攻撃者を誘導します。我々の手法は、効果性と多様性の度合に関する一連の指標において、ランダムな組み合わせに比べて大幅に優れていることを示しました。さらに、我々は Harmbench において、既存の多数の適応的なアプローチを凌駕していることを示しました。我々は、対比的埋め込み入力に適応する軽量なニューラルコンテクストバンジト(Neural Contextual Bandit)を用い、対比的事前トレーニングがネットワークを迅速に汎化させることを示唆するアベレーションを行いましたが、これはネットワークが学習する巨大な空間へスケールを拡大可能であることを意味しています。
Original Content
arXiv:2604.21159v1 Announce Type: cross
Abstract: Many approaches to LLM red-teaming leverage an attacker LLM to discover jailbreaks against a target. Several of them task the attacker with identifying effective strategies through trial and error, resulting in a semantically limited range of successes. Another approach discovers diverse attacks by combining crowdsourced harmful queries and tactics into instructions for the attacker, but does so at random, limiting effectiveness. This article introduces a novel framework, Adaptive Instruction Composition, that combines crowdsourced texts according to an adaptive mechanism trained to jointly optimize effectiveness with diversity. We use reinforcement learning to balance exploration with exploitation in a combinatorial space of instructions to guide the attacker toward diverse generations tailored to target vulnerabilities. We demonstrate that our approach substantially outperforms random combination on a set of effectiveness and diversity metrics, even under model transfer. Further, we show that it surpasses a host of recent adaptive approaches on Harmbench. We employ a lightweight neural contextual bandit that adapts to contrastive embedding inputs, and provide ablations suggesting that the contrastive pretraining enables the network to rapidly generalize and scale to the massive space as it learns.