Back to list
arxiv_cs_cv 2026年4月24日

反事実セグメンテーション推理:ピクセルアンカリングの幻覚を診断し、緩和する

Counterfactual Segmentation Reasoning: Diagnosing and Mitigating Pixel-Grounding Hallucination

Translated: 2026/4/24 19:49:37
counterfactual-segmentationvision-language-modelsvisual-hallucinationarxivcomputer-vision

Japanese Translation

arXiv:2506.21546v4 Announce Type: replace 摘要:セグメンテーション visión-lenguaje モデル(VLM)は、アノテーションされた視覚理解を劇的に向上させてきましたが、依然としてピクセルアンカリングの幻覚(誤った対象や存在しない対象のためのマスクを生成すること)に陥っています。既存の評価は、テキストまたはラベルに基づく擾乱に完全に依存しており、予測されたマスクがクエリされたラベルと一致するか否かしか確認していません。此类評価は幻覚の空間的な規模や深刻さを看過しており、より難易度が高くかつ普遍的である視覚由来の幻覚を曝示しません。このギャップに対処するために、我々は、モデルが事実上の画像において参照された対象をセグメントし、反事実上の対応物については断念する必要があるという反事実セグメンテーション推理(CSR)のタスクを形式化しました。このタスクをサポートするために、我々は、制御された視覚的対抗反例を使用して、参照および推理表現のセグメンテーション幻覚を診断するために初めて大規模なベンチマークとなる HalluSegBench を整備しました。これに加え、幻覚の深刻さを計測し、視覚由来と言語由来の失敗モードを分離させるための新しい評価指標を導入しました。さらに、反事実微調整(CFT)でトレーニングされたセグメンテーション VLM、RobustSeg を紹介しました。実験結果は、RobustSeg が幻覚を 30% 削減し、FP-RefCOCO(+/g)におけるセグメンテーション性能を向上させることを確認しました。

Original Content

arXiv:2506.21546v4 Announce Type: replace Abstract: Segmentation Vision-Language Models (VLMs) have significantly advanced grounded visual understanding, yet they remain prone to pixel-grounding hallucinations, producing masks for incorrect objects or for objects that are entirely absent. Existing evaluations rely almost entirely on text- or label-based perturbations, which check only whether the predicted mask matches the queried label. Such evaluations overlook the spatial footprint and severity of hallucination and therefore fail to reveal vision-driven hallucinations, which are more challenging and more prevalent. To address this gap, we formalize the task of Counterfactual Segmentation Reasoning (CSR), where a model must segment the referenced object in the factual image and abstain in its counterfactual counterpart. To support this task, we curate HalluSegBench, the first large-scale benchmark to diagnose referring and reasoning expression segmentation hallucinations using controlled visual counterfactuals, alongside new evaluation metrics that measure hallucination severity and disentangle vision- and language-driven failure modes. We further introduce RobustSeg, a segmentation VLM trained with counterfactual fine-tuning (CFT) to learn when to segment and when to abstain. Experimental results confirm RobustSeg reduces hallucinations by 30%, while improving segmentation performance on FP-RefCOCO(+/g).