Back to list
翻訳できない?複合ハーモスのクロス言語移りについての比較分析
Lost in Translation? A Comparative Study on the Cross-Lingual Transfer of Composite Harms
Translated: 2026/3/7 13:20:07
Japanese Translation
大量の言語モデル(LLMs)の安全管理評価は、大半が英語に根ざされています。対象を多くするため、翻訳を利用することはしばしばありましたが、それは全体像を全面的に捉えることはありません。有害な意図や構造が言語を変えた後の転写事例では特に如此で、何種類かの種類のハーモスはほとんど完璧に持続しましたが、他のものは歪曲または消滅することもあります。複合ハーモスを目的とした翻訳ベースのベンチマークについてこの影響を調査するためには、私たちがCompositeHarmと名付けたことを紹介します。これは、主に構造的な悪意攻撃に関するAttaQの英語のデータセットと、文脈的と実世界的なハーモスをカバーしているMMSafetyBenchの英語を組み込んだものです。これら二つの寛容な英文データセットは、すべて6種類の言語に拡張することによって、インド諸言(インディー)語、アサメシ、マルタリアス、カンナダ、ゴーミルタシアと Gujaratiに進出します。私たちは3つの大きなモデルを用いて、攻撃的成功率が強力な対象の構文変化下ではインディー語地域で急激に上昇し、特にマルタリアスモデルではより劇的に上がることを発見しました。また、文脈的なハーモスは中等程度に転移するようでした。効率性とエネルギー効率のために新しい設計法を採用することで、この研究成果により、複数の言語の安全管理評価が巨大計算資源で達成可能であることを確保しながらもリソースへの対応と言語の適応性に一歩進んだシステムを作るためには十分な初期ステップでありながら、それだけでは不十分ですという結果を示しました。
Original Content
arXiv:2602.07963v1 Announce Type: cross
Abstract: Most safety evaluations of large language models (LLMs) remain anchored in English. Translation is often used as a shortcut to probe multilingual behavior, but it rarely captures the full picture, especially when harmful intent or structure morphs across languages. Some types of harm survive translation almost intact, while others distort or disappear. To study this effect, we introduce CompositeHarm, a translation-based benchmark designed to examine how safety alignment holds up as both syntax and semantics shift. It combines two complementary English datasets, AttaQ, which targets structured adversarial attacks, and MMSafetyBench, which covers contextual, real-world harms, and extends them into six languages: English, Hindi, Assamese, Marathi, Kannada, and Gujarati. Using three large models, we find that attack success rates rise sharply in Indic languages, especially under adversarial syntax, while contextual harms transfer more moderately. To ensure scalability and energy efficiency, our study adopts lightweight inference strategies inspired by edge-AI design principles, reducing redundant evaluation passes while preserving cross-lingual fidelity. This design makes large-scale multilingual safety testing both computationally feasible and environmentally conscious. Overall, our results show that translated benchmarks are a necessary first step, but not a sufficient one, toward building grounded, resource-aware, language-adaptive safety systems.