Back to list
arxiv_cs_ai 2026年4月24日

Compose and Fuse: Multimodal Reasoning の基盤的ボトルネックの再検討

Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning

Translated: 2026/4/24 20:32:35
multimodal-aireasoning-bottlenecksmllmcross-modal-fusionevaluation-frameworks

Japanese Translation

arXiv:2509.23744v3 Announce Type: replace-cross 要旨:マルチモーダル大規模言語モデル(MLLM)は、テキスト、視覚、音声などの多様な入力統合により、向上した推論能力を約束している。しかし、クロスモーダル推論は十分に探求されておらず、追加したモーダルがパフォーマンスを助けるのか害するのかという矛盾した報告が存在する。これらの不整合は、モデルの内部を分析して、モーダル間の相互作用が推論を支援または阻害する時期と理由を特定できない、統制された評価フレームワークの欠如に起因する。我々は、事実に基づく評価フレームワークを通じて、マルチモーダル推論を 6 つの相互作用パターンのカテゴリーに分類し、事實在どのモーダルにどのように分散され、論理的に組み合わされるかを検討する。実験的に、追加モーダルは、独立したかつ十分な推論経路を提供する際にのみ、推論を改善するが、冗長な、または連鎖的な推導支持はしばしばパフォーマンスを低下させる。さらに、推論は 3 つの系統的な方法で悪化する:弱いモーダル全体のパフォーマンスを低下させる、コンフリクトが特定のモーダルへの偏りを引き起こす、そして異なるモーダルからの聯合シグナルが効果的に統合されない。したがって、我々は 2 つの核心的な失敗を特定した:1)タスク構成のボトルネック(認識と推論が 1 パスで同時に実行されない)、および 2)融合のボトルネック(早期統合が偏りを導入する)。さらに調査のため、我々は、注意パターンが事実の有用性をコード化しないことを見出したが、2 つのステップの簡易プロンプト(認識、次に推論)はパフォーマンスを回復させ、タスク構成のボトルネックを確認した。また、モーダルアイデンティティは早期層で回復可能であり、早期融合における注意力を柔らかくすることにより推論が改善されることを示し、偏った融合を別の失敗モードとして示唆した。全体的に、我々の発見は、統合(認識)がマルチモーダル推論の主要な障壁であり、構成意識されたトレーニングと早期融合制御が有望な方向であることを示している。

Original Content

arXiv:2509.23744v3 Announce Type: replace-cross Abstract: Multimodal large language models (MLLMs) promise enhanced reasoning by integrating diverse inputs such as text, vision, and audio. Yet cross-modal reasoning remains underexplored, with conflicting reports on whether added modalities help or harm performance. These inconsistencies stem from a lack of controlled evaluation frameworks and analysis of models' internals to isolate when and why modality interactions support or undermine reasoning. We address this gap through a logic-grounded evaluation framework that categorizes multimodal reasoning into six interaction patterns, varying how facts are distributed across modalities and logically combined. Empirically, additional modalities enhance reasoning only when they provide independent and sufficient reasoning paths, while redundant or chained entailment support often hurts performance. Moreover, reasoning degrades in three systematic ways: weaker modalities drag down overall performance, conflicts bias preference toward certain modalities, and joint signals from different modalities fail to be integrated effectively. Therefore, we identify two core failures: task-composition bottleneck, where recognition and reasoning cannot be jointly executed in one pass, and fusion bottleneck, where early integration introduces bias. For further investigation, we find that attention patterns fail to encode fact usefulness, but a simple two-step prompting (recognize then reason) restores performance, confirming the task-composition bottleneck. Moreover, modality identity remains recoverable in early layers, and softening attention in early fusion improves reasoning, highlighting biased fusion as another failure mode. Overall, our findings show that integration, not perception, is the main barrier to multimodal reasoning, suggesting composition-aware training and early fusion control as promising directions.