Back to list
arxiv_cs_cv 2026年4月24日

多式大規模言語モデルが指し示を理解しているのか?一貫視点における参照推論のベンチマークと強化

Do MLLMs Understand Pointing? Benchmarking and Enhancing Referential Reasoning in Egocentric Vision

Translated: 2026/4/24 19:44:17
egocentric-visionmulti-modal-llmspatial-reasoningreferential-hallucinationsim-to-real

Japanese Translation

arXiv:2604.21461v1 発表 タイプ:新しい 要約:自己中心型 AI アージェント(例えばスマートグラス)は、自然言語コマンドにおける参照の曖昧さを解消するために指し示しジェスチャーに依存しています。しかし、マルチモーダル大規模言語モデル(MLLM)の進歩にもかかわらず、現在のシステムはしばしば指し示しの空間的文法を正確にアンカーできず、代わりに視覚的親近感や対象の顕著性との誤った相関に依存しています。これを、私たちが「参照の幻觉(Referential Hallucination)」と命名した現象です。このギャップに対処するために、我々は EgoPoint-Bench を紹介しました。これは、一貫視点における多式指し示し推論を評価し強化するために設計された包括的な質問回答ベンチマークです。ベンチマークは、11,000 以上の高忠実度のシミュレートと実世界データサンプルを含み、5 つの評価次元と 3 つの参照の複雑性レベルを跨ぎます。大規模な実験では、最先进の純粋系およびオープンソースモデルは一貫視点の指し示しで苦戦しますが、我々の合成データでファインチューニングされたモデルは顕著なパフォーマンス向上と堅牢なシミュレーションから現実への変換一般化を果たすことが示されました。この工作是、空間認識監督の重要性を浮き彫りにし、正確な自己中心型 AI アシスタントへの拡大可能な道を示唆しています。プロジェクトページ:https://guyyyug.github.io/EgoPoint-Bench/

Original Content

arXiv:2604.21461v1 Announce Type: new Abstract: Egocentric AI agents, such as smart glasses, rely on pointing gestures to resolve referential ambiguities in natural language commands. However, despite advancements in Multimodal Large Language Models (MLLMs), current systems often fail to precisely ground the spatial semantics of pointing. Instead, they rely on spurious correlations with visual proximity or object saliency, a phenomenon we term "Referential Hallucination." To address this gap, we introduce EgoPoint-Bench, a comprehensive question-answering benchmark designed to evaluate and enhance multimodal pointing reasoning in egocentric views. Comprising over 11k high-fidelity simulated and real-world samples, the benchmark spans five evaluation dimensions and three levels of referential complexity. Extensive experiments demonstrate that while state-of-the-art proprietary and open-source models struggle with egocentric pointing, models fine-tuned on our synthetic data achieve significant performance gains and robust sim-to-real generalization. This work highlights the importance of spatially aware supervision and offers a scalable path toward precise egocentric AI assistants. Project page: https://guyyyug.github.io/EgoPoint-Bench/