Back to list
arxiv_cs_cv 2026年2月10日

VISOR: 言語駆動型オブジェクトナビゲーションのための可視空間オブジェクト推論

VISOR: VIsual Spatial Object Reasoning for Language-driven Object Navigation

Translated: 2026/3/15 18:04:18
visorobject-navigationvision-language-actionembodied-ailanguage-models

Japanese Translation

arXiv:2602.07555v1 発表 タイプ:新規 要約:言語駆動型オブジェクトナビゲーションは、エージェントが目的の物体に関する自然言語記述を解釈することを要求します。この記述は、インスタンス認識と共通知能に基づいたナビゲーションのために内在的および外在的特性を組み合わせています。既存の手法は、(i) 視覚言語埋め込みを使用するエンドツーエンドで訓練されたモデルで、これらは訓練データの外へ汎化できず、レベルの説明可能性に欠け (ii) LLM とオープンセットオブジェクト検出器を備えたモジュラーゼロショットパイプラインに依存しており、これらはエラーの伝播、高い計算コスト、およびナビゲーションポリシーへの推論の統合が困難です。この目的のために、私たちは、物体認識と動作選択の両方において人間のような身体的推論を行う、30 億パラメータのコンパクトな視覚言語動作 (VLA) エージェントを提案します。これにより、縫い付けられたマルチモデルパイプラインの必要性が除去されます。私のエージェントは、生の埋め込み一致ではなく、画像に根ざした明示的な推論を用いて、「これが目的の物体ですか?」および「なぜこの行動をとるべきでしょうか?」に直接答えます。推論プロセスには「考える」「考える要約」「行動」という 3 つの段階があり、より高い説明可能性、強力な汎化、および効率的なナビゲーションをもたらします。コードとデータセットは、承認後の利用が可能になります。

Original Content

arXiv:2602.07555v1 Announce Type: new Abstract: Language-driven object navigation requires agents to interpret natural language descriptions of target objects, which combine intrinsic and extrinsic attributes for instance recognition and commonsense navigation. Existing methods either (i) use end-to-end trained models with vision-language embeddings, which struggle to generalize beyond training data and lack action-level explainability, or (ii) rely on modular zero-shot pipelines with large language models (LLMs) and open-set object detectors, which suffer from error propagation, high computational cost, and difficulty integrating their reasoning back into the navigation policy. To this end, we propose a compact 3B-parameter Vision-Language-Action (VLA) agent that performs human-like embodied reasoning for both object recognition and action selection, removing the need for stitched multi-model pipelines. Instead of raw embedding matching, our agent employs explicit image-grounded reasoning to directly answer "Is this the target object?" and "Why should I take this action?" The reasoning process unfolds in three stages: "think", "think summary", and "action", yielding improved explainability, stronger generalization, and more efficient navigation. Code and dataset available upon acceptance.