Back to list
規範的擬像から文学作品によるプライバシー思考の強化:LLM への適用
Reinforcing privacy reasoning in LLMs via normative simulacra from fiction
Translated: 2026/4/24 20:21:07
Japanese Translation
arXiv:2604.20904v1 発表タイプ:横断
要旨: 大規模言語モデル(LLM)エージェントの情報管理手法は、ユーザーの文脈的プライバシー期待と広範に一致していません。文脈的完全性(Contextual Integrity, CI)は、プライバシーを文脈相対的な規範内の情報の適切な流通として定義する原則的な枠組みを提供しますが、既存のアプローチは監督者アシスタントアーキテクチャを通じて推論コストを二倍にするか、特定のタスク向けに狭いデータでファインチューニングすることしかありません。本稿では、規範的な擬像(規範と情報流通の構造化された表現)を小説から抽出し、その擬像を用いて監督学習に続き GRPO(Group Relative Policy Optimization)強化学習による LLM ファインチューニングを提案します。当社の複合報酬関数は、タスクの明確さ(スキーマ有効性、構造識別、抽出信頼度を内包)、構造の完全性、内部の整合性、文脈の特定を含むプログラムのシグナルと、ソーステキストの保持されていない規範宇宙に基づいてモデルのプライバシー思考が根付いているか否かを評価する LLM 判定者を組み合わせています。オーバーフィッティングを回避するために、当方では完了ごとの対比スコアリングを導入しました:各完了は正しい規範宇宙とランダムに選択された誤った規範宇宙の両方に対して評価され、モデルが文脈に条件付けるよう、そして源固有の規範を暗記するようを教えられました。5 つの CI 一致ベンチマークを含む異なる社会的文脈を評価し、RL と規範的基盤の寄与を除去了。7 つのモデルを跨ぎ、SFT は情報の流通を制限する方向に保守的な先入見を導入し、プライバシーに関連する状況の認識を向上させても、プライバシー判断の正解率には影響しませんでした。規範的基盤を備えた GRPO は法遵守ベンチマークで最も高い得点を達成し、大衆的プライバシー期待との強い相関を示し、文学由来の規範的な擬像が現実世界のドメインに移行できる文脈的プライバシー思考を教えることができることを証明しました。
Original Content
arXiv:2604.20904v1 Announce Type: cross
Abstract: Information handling practices of LLM agents are broadly misaligned with the contextual privacy expectations of their users. Contextual Integrity (CI) provides a principled framework, defining privacy as the appropriate flow of information within context-relative norms. However, existing approaches either double inference cost via supervisor-assistant architectures, or fine-tune on narrow task-specific data. We propose extracting normative simulacra (structured representations of norms and information flows) from fiction novels and using them to fine-tune LLMs via supervised learning followed by GRPO reinforcement learning. Our composite reward function combines programmatic signals, including task clarity (subsuming schema validity, construct discrimination, and extraction confidence), structural completeness, internal consistency, and context identification, with an LLM judge that evaluates whether the model's privacy reasoning is grounded in the held-out normative universe of the source text. To mitigate overfitting, we introduce per-completion contrastive scoring: each completion is evaluated against both the correct normative universe and a randomly selected wrong one, teaching the model to condition on context rather than memorize source-specific norms. We evaluate on five CI-aligned benchmarks spanning distinct societal contexts and ablate the contributions of RL and normative grounding. Across seven models, SFT introduces a conservative prior toward restricting information flow, improving recognition of privacy-relevant situations but not the correctness of privacy judgments. GRPO with normative grounding achieves the highest score on a law compliance benchmark and strongest correlation with crowdsourced human privacy expectations, demonstrating that fiction-derived normative simulacra can teach contextual privacy reasoning that transfers to real-world domains.