Back to list
SpatiO:空間推論のために、視点と言語エージェントの適応型テスト時期オーケストレーション
SpatiO: Adaptive Test-Time Orchestration of Vision-Language Agents for Spatial Reasoning
Translated: 2026/4/24 19:41:44
Japanese Translation
arXiv:2604.21190v1 Announce Type: new
Abstract: 視覚的なシーンの理解には、物体の識別だけでなく、それらの空間的な関係を推論する能力も必要です。一般的な視覚と言語のタスクとは異なり、空間推論は、2D 的外観信号、深度信号、幾何学的制約などの複数の帰納的バイアスを統合する必要がありますが、これらの信頼性は文脈によって変化する可能性が示唆されています。これにより、効果的な空間推論には、入状況に応じて異なる推論戦略を柔軟に調整する「空間適応性」が必要であると考えられます。しかし、既存のほとんどのアプローチは、不変な空間先驗を暗黙的に学習する単一の推論パイプラインに依存しており、分布の変化に対する適応能力に制限されています。マルチエージェントシステムは、多様な推論軌跡を集合することにより、有望な代替案を提供しますが、以前の空間推論における試みは主に均質なエージェントを使用しており、活用可能な帰納的バイアスの多様性を制限してきました。本稿では、補完的な帰納的バイアスを有する複数の視点と言語専門家を調整する空間推論のための非均質マルチエージェントフレームワークである extbf{ extsc{SpatiO}} を導入します。効果的な協調を実現するために、我々は推論中に観測された信頼性に基づいてエージェントを動的に評価し再重み付けるための extbf{テスト時期オーケストレーション (TTO)} という最適化メカニズムを提案し、モデルパラメータを変更せずに適用します。3DSRBench, STVQA-7k, CV-Bench, Omni3D-Bench などの多様な空間推論ベンチマークで実施された大規模実験において、 extsc{SpatiO} はクローズドソースおよびオープンソースの基盤と比較して、一貫して空間推論性能を改善することが示されました。
Original Content
arXiv:2604.21190v1 Announce Type: new
Abstract: Understanding visual scenes requires not only recognizing objects but also reasoning about their spatial relationships. Unlike general vision-language tasks, spatial reasoning requires integrating multiple inductive biases, such as 2D appearance cues, depth signals, and geometric constraints, whose reliability varies across contexts. This suggests that effective spatial reasoning requires \emph{spatial adaptability}: the ability to flexibly coordinate different reasoning strategies depending on the input. However, most existing approaches rely on a single reasoning pipeline that implicitly learns a fixed spatial prior, limiting their ability to adapt under distribution changes. Multi-agent systems offer a promising alternative by aggregating diverse reasoning trajectories, but prior attempts in spatial reasoning primarily employ homogeneous agents, restricting the diversity of inductive biases they can leverage. In this work, we introduce \textbf{\textsc{SpatiO}}, a heterogeneous multi-agent framework for spatial reasoning that coordinates multiple vision-language specialists with complementary inductive biases. To enable effective collaboration, we propose \textbf{Test-Time Orchestration (TTO)}, an optimization mechanism that dynamically evaluates and reweights agents based on their observed reliability during inference, without modifying model parameters. Extensive experiments on diverse spatial reasoning benchmarks, including 3DSRBench, STVQA-7k, CV-Bench, and Omni3D-Bench, demonstrate that \textsc{SpatiO} consistently improves spatial reasoning performance over both closed-source and open-source baselines.