Back to list
LLM における公平性の評価と推論段階のバイアス軽減
Fairness Evaluation and Inference Level Mitigation in LLMs
Translated: 2026/4/24 20:33:04
Japanese Translation
arXiv:2510.18914v4 Announce Type: replace-cross
要旨:大規模言語モデルは、内部表現に埋め込まれた望ましくない振る舞いを示す傾向があり、これが公平性の欠如、一貫性の崩れ(不一致ドリフト)、有害コンテンツの増幅、および長期間にわたる対話・会話における望ましくないパターンの伝播を妨げる。学習時またはデータ中心的な手法がこれらの効果を軽減しようと試みるものの、計算コストが高く、デプロイ后被覆(不可逆)、かつ新しい会話文脈に迅速に対応できないという課題がある。剪定に基づく手法は、特定の振る舞いを担うニューロンを調整することでバイアスを軽減する、柔軟で透明性の高いアプローチを提供するが、既存の多くの手法は静的であり、ニューロンが削除されると会話文脈の変化に応じてモデルが適応する能力を失ってしまう。そこで、私たちはコンテキストに即したニューロン活性化を検出し、生成中にその影響力を調整するために適応的マスキングを適用する、動的で可逆的な剪定に基づくフレームワークを提案する。私たちの推論時のソリューションは、多言語のワンターおよびマルチターン対話において、知識を保持したままより整合性の高い振る舞いを提供し、メモリ効率の高い微細なバイアス軽減を実現することで、リアルタイムの対話型人工知能における動的な公平性制御を可能にする。
Original Content
arXiv:2510.18914v4 Announce Type: replace-cross
Abstract: Large language models often display undesirable behaviors embedded in their internal representations, undermining fairness, inconsistency drift, amplification of harmful content, and the propagation of unwanted patterns during extended dialogue and conversations. Although training-time or data-centric methods attempt to reduce these effects, they are computationally expensive, irreversible once deployed, and slow to adapt to new conversational contexts. Pruning-based methods provide a flexible and transparent way to reduce bias by adjusting the neurons responsible for certain behaviors. However, most existing approaches are static; once a neuron is removed, the model loses the ability to adapt when the conversation or context changes. To address this, we propose a dynamic, reversible, pruning-based framework that detects context-aware neuron activations and applies adaptive masking to modulate their influence during generation. Our inference-time solution provides fine-grained, memory-aware mitigation with knowledge-preserved, more coherent behavior across multilingual single- and multi-turn dialogues, enabling dynamic fairness control in real-world conversational AI.