Back to list
arxiv_cs_lg 2026年2月10日

ASIDE: Language モデルにおける指示とデータのアーキテクチャ的な分離

ASIDE: Architectural Separation of Instructions and Data in Language Models

Translated: 2026/3/15 9:04:25
llmprompt-injectionmodel-architectureinstruction-followingcybersecurity

Japanese Translation

arXiv:2503.10566v4 Announce Type: replace 要旨: 顕著な性能を有する大規模言語モデルには、基本的な安全機能が欠如しており、多数の悪意のある攻撃にさらされやすいことが問題になっています。特に、過去の研究は、指示とデータ間の内在的な分離が欠如していることを、プロンプトインジェクション攻撃の成功の根本原因であると特定しています。本稿では、言語モデルがトークン埋め込みのレベルで指示とデータを明確に分離できる、新しいアーキテクチャ的要素である ASIDE を提案します。ASIDE は、データのトークンの埋め込みに対して直交な回転を適用し、追加パラメータを導入することなく、指示とデータのトークンに明確に異なる表現を作成します。複数のモデルを対象とした実験的検証により、ASIDE を使用した指示チューニング済みの LLM は (1) 性能低下なく指示とデータの分離を大幅に高め、(2) 専用の安全トレーニングを行わなくてもプロンプトインジェクションベンチマークに対して頑健であることを実証しました。さらに、我々の手法の背後にあるメカニズムに関する洞察を提供するために、モデル表現の分析も行っています。ソースコードとトレーニングスクリプトは、https://github.com/egozverev/aside に公開されています。

Original Content

arXiv:2503.10566v4 Announce Type: replace Abstract: Despite their remarkable performance, large language models lack elementary safety features, making them susceptible to numerous malicious attacks. In particular, previous work has identified the absence of an intrinsic separation between instructions and data as the root cause of the success of prompt injection attacks. In this work, we propose a new architectural element, ASIDE, that allows language models to clearly separate instructions and data at the level of token embeddings. ASIDE applies an orthogonal rotation to the embeddings of data tokens, thus creating clearly distinct representations of instructions and data tokens without introducing any additional parameters. As we demonstrate experimentally across a range of models, instruction-tuning LLMs with ASIDE (1) achieves substantially higher instruction-data separation without performance loss and (2) makes the models more robust to prompt injection benchmarks, even without dedicated safety training. Additionally, we provide insights into the mechanism underlying our method through an analysis of the model representations. The source code and training scripts are openly accessible at https://github.com/egozverev/aside.