Back to list
TruthPrInt: Latent Truthful-Guided Pre-Interventionによる大規模ビジョン・言語モデルのオブジェクト嘘偽の軽減
TruthPrInt: Mitigating Large Vision-Language Models Object Hallucination Via Latent Truthful-Guided Pre-Intervention
Translated: 2026/3/15 4:02:44
Japanese Translation
arXiv:2503.10602v3 Announce Type: replace
要旨:オブジェクト嘘偽(Object Hallucination, OH)は、大規模ビジョン・言語モデル(LVLMs)の信頼性に関する主要な課題の一つと認識されています。大規模言語モデル(LLMs)の最近の進歩は、生成された応答の「全体的な真実性」がハイドンステートなどの内部状態にエンコードされていることを示唆しています。しかし、LVLMにおける内部状態がどのように機能しているのか、およびそれらが OH を軽減するために不可欠な「トークン単位」の嘘偽指標として機能できるかどうかはまだ十分に研究されていません。本稿では、まず OH 問題に直面した LVLM 内部状態を深入り調査し、(1) LVLM 内部状態は嘘偽行動のトークン単位の高感度指標であることを発見しました。さらに、(2) 異なる LVLM は共通の潜在サブ空間に嘘偽の普遍的パターンをエンコードしているため、 Various LVLM に共有されている「一般的真実的方向性」が存在することを発見しました。これらの発見に基づき、LVLM 解碼の真実的方向性を学習し、その後に LVLM 解碼中に真実性に基づく推論時間の介入を適用する Truthful-Guided Pre-Intervention(TruthPrInt)を提案しました。さらに、嘘偽潜在サブ空間の構築と整合化を通じて、TruthPrInt を跨 LVLM と跨データの嘘偽検出転送可能性を強化することを提案しました。Popular LVLM と OH ベンチマークを対象とした広範な実験設定(ドメイン内・ドメイン外シナリオを含む)で TruthPrInt を評価しました。実験結果は、TruthPrInt が最先进法を著しく凌駕していることを示しています。コードは https://github.com/jinhaoduan/TruthPrInt で利用可能です。
Original Content
arXiv:2503.10602v3 Announce Type: replace
Abstract: Object Hallucination (OH) has been acknowledged as one of the major trustworthy challenges in Large Vision-Language Models (LVLMs). Recent advancements in Large Language Models (LLMs) indicate that internal states, such as hidden states, encode the "overall truthfulness" of generated responses. However, it remains under-explored how internal states in LVLMs function and whether they could serve as "per-token" hallucination indicators, which is essential for mitigating OH. In this paper, we first conduct an in-depth exploration of LVLM internal states with OH issues and discover that (1) LVLM internal states are high-specificity per-token indicators of hallucination behaviors. Moreover, (2) different LVLMs encode universal patterns of hallucinations in common latent subspaces, indicating that there exist "generic truthful directions" shared by various LVLMs. Based on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt) that first learns the truthful direction of LVLM decoding and then applies truthful-guided inference-time intervention during LVLM decoding. We further propose TruthPrInt to enhance both cross-LVLM and cross-data hallucination detection transferability by constructing and aligning hallucination latent subspaces. We evaluate TruthPrInt in extensive experimental settings, including in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks. Experimental results indicate that TruthPrInt significantly outperforms state-of-the-art methods. Codes will be available at https://github.com/jinhaoduan/TruthPrInt.