arxiv_cs_ai 2026年4月24日

ロジックジャイルブレイク：形式論理表現を介した LLM 安全制限の効率的な解除

Logic Jailbreak: Efficiently Unlocking LLM Safety Restrictions Through Formal Logical Expression

Translated: 2026/4/24 20:31:57

formal-logicllm-safetyjailbreak-attacksprompt-engineeringnatural-language-processing

Japanese Translation

arXiv:2505.13527v3 発表タイプ：差し替え要約：Large Language Model（LLM）と人間価値の整合化には多大な進展が見られているものの、現在の安全メカニズムはジャイルブレイク攻撃に対して依然として感受性が高い。当研究では、この脆弱性が整合化志向のプロンプトと悪意あるプロンプトの間の分布的差異に起因すると仮定している。これを調べるために、形式論理表現の変換を活用して LLM 安全システムを回避する、新奇かつ普遍的なブラックボックス・ジャイルブレイク手法である LogiBreak を導入した。有害な自然言語プロンプトを形式論理表現に変換することによって、LogiBreak は整合化データと論理に基づく入力の間の分布的ギャップを活用し、潜在的な意味と読みやす性を保持しながら安全制約を回避する。多言語のジャイルブレイクデータセット（3 言語を含む）を用いて LogiBreak を評価し、複数の評価設定と言語的文脈においてその有効性を示した。

Original Content

arXiv:2505.13527v3 Announce Type: replace-cross Abstract: Despite substantial advancements in aligning large language models (LLMs) with human values, current safety mechanisms remain susceptible to jailbreak attacks. We hypothesize that this vulnerability stems from distributional discrepancies between alignment-oriented prompts and malicious prompts. To investigate this, we introduce LogiBreak, a novel and universal black-box jailbreak method that leverages logical expression translation to circumvent LLM safety systems. By converting harmful natural language prompts into formal logical expressions, LogiBreak exploits the distributional gap between alignment data and logic-based inputs, preserving the underlying semantic intent and readability while evading safety constraints. We evaluate LogiBreak on a multilingual jailbreak dataset spanning three languages, demonstrating its effectiveness across various evaluation settings and linguistic contexts.