arxiv_cs_ai 2026年4月24日

LASA: セマンティックボトルネックにおける言語不感型セマンティックアライメントと LLM セーフティ

LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety

Translated: 2026/4/24 20:35:15

language-modelssemantic-alignmentsafety-ailow-resource-languagesllm-safety

Japanese Translation

arXiv:2604.12710v2 発表タイプ：代替 cross 要旨：大規模言語モデル（LLM）は高リソース言語では安全性性能が良好であるにもかかわらず、低リソース言語で問われる場合は重大な脆弱性を示すことがあります。我々は、このギャップが、言語不感型のセマンティック理解能力と、高リソース言語に偏った言語優位型のセーフティアライメントの不整合によるものであると帰因します。この仮説に整合するとして、我々は LLM のセマンティックボトルネックを実験的に特定しました。これは、モデル表現の幾何学が主に共有セマンティックコンテンツによって支配され、言語同定によって支配されない中間レイヤーです。この観察に基づき、我々はセマンティックボトルネックに直接セーフティアライメントをアンカーする言語不感型セマンティックアライメント（LASA）を提案しました。実験は、LASA がすべての言語で安全性を著しく改善することを示しています：LLaMA-3.1-8B-Instruct では平均攻撃成功率（ASR）が 24.7% から 2.8% に低下し、Qwen2.5 および Qwen3 Instruct モデル（7B-32B）では 3-4% 程度を維持しています。われわれの分析と方法は、LLM セーフティに対する表現レベルの視点を提供しており、セーフティアライメントは表面文字にではなく、モデルの言語不感型セマンティックスペースにセーフティ理解をアンカーする必要があると示唆しています。

Original Content

arXiv:2604.12710v2 Announce Type: replace-cross Abstract: Large language models (LLMs) often demonstrate strong safety performance in high-resource languages, yet exhibit severe vulnerabilities when queried in low-resource languages. We attribute this gap to a mismatch between language-agnostic semantic understanding ability and language-dominant safety alignment biased toward high-resource languages. Consistent with this hypothesis, we empirically identify the semantic bottleneck in LLMs, an intermediate layer in which the geometry of model representations is governed primarily by shared semantic content rather than language identity. Building on this observation, we propose Language-Agnostic Semantic Alignment (LASA), which anchors safety alignment directly in semantic bottlenecks. Experiments show that LASA substantially improves safety across all languages: average attack success rate (ASR) drops from 24.7% to 2.8% on LLaMA-3.1-8B-Instruct and remains around 3-4% across Qwen2.5 and Qwen3 Instruct models (7B-32B). Together, our analysis and method offer a representation-level perspective on LLM safety, suggesting that safety alignment requires anchoring safety understanding not in surface text, but in the model's language-agnostic semantic space.