Back to list
多数抽出法下の大規模言語モデルに対する攻撃リスクの推定
Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling
Translated: 2026/2/14 6:29:56
Japanese Translation
大型言語モデル(LLM)は、単拍子評価や低コストの悪意のある(prompting)評価が、実世界のリスクを低估しています。実践では、攻撃者は大規模な並列抽出を用いてモデルを再検討し続けることで有害反応を生み出すまで攻撃を試みることができます。最新の研究では、繰り返すサンプリングが攻撃成功の成功率を上昇させることも示されていますが、大規模な悪意のあるリスクに対する原理的で確実な予測手段はまだ限られています。我々はBenchef-of-Nスケリングに特化したBest-of-N(以下SABER)リスクの推定法を提案し、多拍子抽出下での獄中脱出弱さに対するモデルの脆弱性を理解するために、Betta分布からBernoulli分布の共同事前分布を利用したサンプルレベルでの成功確率をモデル化します。Beta分布を使用してモデルからベータ法が推導され、その結果、小さな予算への測定から大規模なNにおける攻撃的成功率の正確な拡張は可能となります。我々の確立されたエストマーントはn=100のサンプルを使って、ASR@1000の予測で平均絶対エラーは1.66であり、基準ベースではその誤差が12.04であることを示しており、それに対する約86%の誤差削減が示されました。我々の結果によればリスクの配位と非線形的リスク拡大がモデルに対して異なる様子を確認し、標準評価下においては堅牢に見えていたモデルも一方的な並列攻撃ストレスは急激な非線形的リスク増大を体験することもあることを示しています。この研究はLLMの実際的安全性への評価における廉価で可視化可能かつ拡張可能な手法として提供されます。発表の後、コードと評価用ツールを公開することにより、今後の研究に役立つ予定です。
Original Content
arXiv:2601.22636v2 Announce Type: replace
Abstract: Large Language Models (LLMs) are typically evaluated for safety under single-shot or low-budget adversarial prompting, which underestimates real-world risk. In practice, attackers can exploit large-scale parallel sampling to repeatedly probe a model until a harmful response is produced. While recent work shows that attack success increases with repeated sampling, principled methods for predicting large-scale adversarial risk remain limited. We propose a scaling-aware Best-of-N estimation of risk, SABER, for modeling jailbreak vulnerability under Best-of-N sampling. We model sample-level success probabilities using a Beta distribution, the conjugate prior of the Bernoulli distribution, and derive an analytic scaling law that enables reliable extrapolation of large-N attack success rates from small-budget measurements. Using only n=100 samples, our anchored estimator predicts ASR@1000 with a mean absolute error of 1.66, compared to 12.04 for the baseline, which is an 86.2% reduction in estimation error. Our results reveal heterogeneous risk scaling profiles and show that models appearing robust under standard evaluation can experience rapid nonlinear risk amplification under parallel adversarial pressure. This work provides a low-cost, scalable methodology for realistic LLM safety assessment. We will release our code and evaluation scripts upon publication to future research.