Back to list
MACD:反事例データを用いたモデル意識的な対比型デコーディング
MACD: Model-Aware Contrastive Decoding via Counterfactual Data
Translated: 2026/3/15 17:03:59
Japanese Translation
arXiv:2602.01740v2 Announce Type: replace-cross
摘要:ビデオ言語モデル(Video-LLMs)は、視覚的証拠が弱く、曖昧、または偏っている場合に、合理的だが根拠のないコンテンツを生成する幻覚(hallucination)に陥りがちです。既存のデコーディング手法(例えば対比型デコーディング:Contrastive Decoding(CD))は、幻覚パターンを軽減するために反事例データを構築するためにランダムなノイズ適用を依存していますが、この方法は幻覚を駆動する視覚的シグナルを制御することや、モデルの弱点とよく一致させることを困難にしています。我々は、モデル意識的な反事例データに基づく対比型デコーディング(MACD)を提案します。これは、モデル導向反事例構築とデコーディングを組み合わせた新しい推論戦略です。私々のアプローチは、ビデオ言語モデル自身のフィードバックを使用して、幻覚に最も責任がある対象領域を特定し、フレームや時間の任意的な変更ではなく、オブジェクトレベルでターゲッティングされた反事例入力を生み出します。その後、これらのモデル意識的な反事例データは CD に統合され、デコーディング中に証拠に根ざしたトークンの選択を強制します。実験結果(EventHallusion、MVBench、Perception-test、Video-MME)では、MACD は様々な Video-LLM(Qwen や InternVL ファミリーを含む)で一貫して幻覚を減らしつつタスク精度を維持または改善することが示されました。この方法は、小さな、隠れる、または共存するオブジェクトを含む困難なシナリオにおいて特に効果的です。私たちのコードとデータは公開されます。
Original Content
arXiv:2602.01740v2 Announce Type: replace-cross
Abstract: Video language models (Video-LLMs) are prone to hallucinations, often generating plausible but ungrounded content when visual evidence is weak, ambiguous, or biased. Existing decoding methods, such as contrastive decoding (CD), rely on random perturbations to construct contrastive data for mitigating hallucination patterns. However, such a way is hard to control the visual cues that drive hallucination or well align with model weaknesses. We propose Model-aware Counterfactual Data based Contrastive Decoding (MACD), a new inference strategy that combines model-guided counterfactual construction with decoding. Our approach uses the Video-LLM's own feedback to identify object regions most responsible for hallucination, generating targeted counterfactual inputs at the object level rather than arbitrary frame or temporal modifications. These model-aware counterfactual data is then integrated into CD to enforce evidence-grounded token selection during decoding. Experiments on EventHallusion, MVBench, Perception-test and Video-MME show that MACD consistently reduces hallucination while maintaining or improving task accuracy across diverse Video-LLMs, including Qwen and InternVL families. The method is especially effective in challenging scenarios involving small, occluded, or co-occurring objects. Our code and data will be publicly released.