Back to list
Mechanistic Interpretability と Prompt Engineering の架橋:解釈可能なパーソナ制御のための Gradient Ascent
Bridging Mechanistic Interpretability and Prompt Engineering with Gradient Ascent for Interpretable Persona Control
Translated: 2026/4/24 20:09:28
Japanese Translation
arXiv:2601.02896v2 Announce Type: replace
要約:
大規模言語モデル (LLMs) の自律的な行動的パーソナリティ(例:迎合、ハルシネーション)制御は AI セーフティにおいて極めて重要でありながら、依然として解決されなければならない課題です。既存のソリューションには、直感的だが非スケーラブルかつ不確実な「手動プロンプトエンジニアリング」 versus、効果的だがモデル内部との解釈可能な接続を持たない「黒箱」としての「自動最適化方法」というジレンマが存在します。
我々は、LLM 用に勾配上昇(gradient ascent)を適応させた新しいフレームワークを提案し、ターゲット指向のプロンプト発見を可能にしました。具体的には、特定のパーソナリティ方向とよりよい対齐された表現を実現するために、ランダムに初期化されたプロンプトを最適化する RESGA と SAEGA という 2 つの手法を提案しました。我々は、発見されたパーソナリティステアリングプロンプトの読みやすさを制御するための流暢勾配上昇(fluent gradient ascent)を導入しました。
RESGA と SAEGA の有効性を、sycophancy、hallucination、myopic reward という 3 つ異なるパーソナリティのステアリングにおいて、Llama 3.1、Qwen 2.5、Gemma 3 のいずれにも示しました。特に sycophancy において、我々が自動的に発見したプロンプトは顕著な改善(49.90% versus 79.24%)をもたらしました。我々の手法は、プロンプト発見を機能的に意味のある特徴に基づくようにしたことで、制御可能かつ解釈可能な行動変容のための新しいパラダイムを提供します。
Original Content
arXiv:2601.02896v2 Announce Type: replace
Abstract: Controlling emergent behavioral personas (e.g., sycophancy, hallucination) in Large Language Models (LLMs) is critical for AI safety, yet remains a persistent challenge. Existing solutions face a dilemma: manual prompt engineering is intuitive but unscalable and imprecise, while automatic optimization methods are effective but operate as "black boxes" with no interpretable connection to model internals. We propose a novel framework that adapts gradient ascent to LLMs, enabling targeted prompt discovery. In specific, we propose two methods, RESGA and SAEGA, that both optimize randomly initialized prompts to achieve better aligned representation with an identified persona direction. We introduce fluent gradient ascent to control the fluency of discovered persona steering prompts. We demonstrate RESGA and SAEGA's effectiveness across Llama 3.1, Qwen 2.5, and Gemma 3 for steering three different personas, sycophancy, hallucination, and myopic reward. Crucially, on sycophancy, our automatically discovered prompts achieve significant improvement (49.90% compared with 79.24%). By grounding prompt discovery in mechanistically meaningful features, our method offers a new paradigm for controllable and interpretable behavior modification.