Back to list
意図の洗浄:AI セーフティデータセットは思っているほどではない
Intent Laundering: AI Safety Datasets Are Not What They Seem
Translated: 2026/4/24 20:34:37
Japanese Translation
arXiv:2602.16729v3 発表タイプ:replace-cross
摘要:私たちは、一般的に使用されている敵対的セーフティデータセットを 2 つの視点から質的に評価します:隔離条件下と実用状況。隔離条件下では、これらのデータセットが、以下の 3 つの定義された特性を持つ現実世界の敵対的攻撃をどれだけ反映しているかを調査します:陰謀的な意図に基づいていること、よく作られたこと、および分布外であること。われわれは、これらのデータセットは「トリガー・キューズ(triggering cues):」「陰暗く/機密に潜んだ意味を持つ明確な言葉やフレーズ、つまりセーフティ機構を明示的にトリガーすることを意図したものです。これは現実世界の攻撃と比較すると不現実的です。実用状況では、これらのデータセットが本当にセーフティリスクを測定しているのか、それともトリガー・キューズを通じて単純に拒否を引き起こしているのかを評価します。これを探るために、我々は「意図の洗浄」を導入しました:これは敵対的攻撃(データポイント)からトリガー・キューズを抽象化する手順であり、悪意のある意図とすべての関連性を厳密に保持します。われわれの結果は、現在の敵対的セーフティデータセットがトリガー・キューズへの過剰な依存により、現実世界の敵対的行動を忠実に反映していないことを示しています。これらのキューズを除去すると、以前に評価された「十分に安全」と称されたすべてのモデルが不安全になります、Gemini 3 Pro と Claude Sonnet 3.7/4 を含むものです。また、意図の洗浄をジャイルブレイキング手法として適応させると、それは完全にブラックボックスアクセス下で、攻撃成功率が 90.00% から 100.00% に達し続けています。総合的に、われわれの発見は、既存のデータセットがモデル安全性をどのように評価するか、および現実世界の敵対者がどのように振る舞うのかという間の重要な乖離を暴露しました。
Original Content
arXiv:2602.16729v3 Announce Type: replace-cross
Abstract: We systematically evaluate the quality of widely used adversarial safety datasets from two perspectives: in isolation and in practice. In isolation, we examine how well these datasets reflect real-world adversarial attacks based on three defining properties: being driven by ulterior intent, well-crafted, and out-of-distribution. We find that these datasets overrely on "triggering cues": words or phrases with overt negative/sensitive connotations that are intended to trigger safety mechanisms explicitly, which is unrealistic compared to real-world attacks. In practice, we evaluate whether these datasets genuinely measure safety risks or merely provoke refusals through triggering cues. To explore this, we introduce "intent laundering": a procedure that abstracts away triggering cues from adversarial attacks (data points) while strictly preserving their malicious intent and all relevant details. Our results show that current adversarial safety datasets fail to faithfully represent real-world adversarial behavior due to their overreliance on triggering cues. Once these cues are removed, all previously evaluated "reasonably safe" models become unsafe, including Gemini 3 Pro and Claude Sonnet 3.7/4. Moreover, when intent laundering is adapted as a jailbreaking technique, it consistently achieves high attack success rates, ranging from 90.00% to 100.00%, under fully black-box access. Overall, our findings expose a significant disconnect between how existing datasets evaluate model safety and how real-world adversaries behave.