Back to list
OutOf分布検出から類妄想検出への視点:幾何学的考察
From Out-of-Distribution Detection to Hallucination Detection: A Geometric View
Translated: 2026/3/7 8:18:42
Japanese Translation
発表種別:新規
Abstractは、大規模言語モデルにおける類妄想の検出した Detectingとしての重要性を指摘。既存の類妄想検出方法は質問応答タスクでの強い性能がありましたが、論理性が必要なタスクではまだ効果が限定的です。本研究では、論理性が必要となるタスクに対する類妄想検出した観点から出力を異常とする分布(OOD)の検出を再考します。これはコンピュータビジョンなどでのよく取り上げられた課題と言えます。言語モデルに対する予測の次のトークンは、分類タスクとみることができますので、適切な変更が施せば構造的な違いを考慮した分布検出手法に基づくことができます。我々は、オーディションベースのアプローチを採用し、推理タスクでの記述性の高い正確さを示します。本研究全体では、類妄想検出しを観察のない分布検出と考えることにより、言語モデルに対する安全の新しいパスウェイが提案されることになります。
Original Content
arXiv:2602.07253v1 Announce Type: new
Abstract: Detecting hallucinations in large language models is a critical open problem with significant implications for safety and reliability. While existing hallucination detection methods achieve strong performance in question-answering tasks, they remain less effective on tasks requiring reasoning. In this work, we revisit hallucination detection through the lens of out-of-distribution (OOD) detection, a well-studied problem in areas like computer vision. Treating next-token prediction in language models as a classification task allows us to apply OOD techniques, provided appropriate modifications are made to account for the structural differences in large language models. We show that OOD-based approaches yield training-free, single-sample-based detectors, achieving strong accuracy in hallucination detection for reasoning tasks. Overall, our work suggests that reframing hallucination detection as OOD detection provides a promising and scalable pathway toward language model safety.