Back to list
Foveated Reasoning: 多様視覚注意を備えた言語 - 視覚モデルのための状態付きアクションベースの視覚的焦点制御
Foveated Reasoning: Stateful, Action-based Visual Focusing for Vision-Language Models
Translated: 2026/4/24 19:41:04
Japanese Translation
arXiv:2604.21079v1 Announce Type: new
アブストラクト:視覚言語モデルは高解像度の画像から恩恵を受けますが、視覚トークン数の増加は高い計算負荷を引き起こします。人類はこの緊張関係を、粗い視点で「どこを見るべきか」を導き、選択的に収集した高解像度証拠によって「何を考えるべきか」を精緻化する、フォベーテーションというメカニズムを通じて解決しています。当論文では、フォベーテーションと推論を单一的なデコーディング軌道内に統合する自己回帰型視覚言語枠組み「Foveated Reasoner」を提案します。低解像度視点から出発し、必要な場合にのみフォベーテーションをトリガーし、選択された領域から高解像度証拠を取得してそのデコーディング軌道内に再接続させる手法です。本研究では、フォベーテーション行動を起動させるための初期段階の監督学習に続き、証拠取得とタスク精度を同時に向上させながら、単純な「すべてを見る」という解決策を回避するよう促すように、二段階パイプラインを用いて学習を行いました。実験では、该方法が効果的なフォベーテーション政策を学習しており、複数の視覚言語ベンチマークにおいて制約された視覚トークン予算下で高い精度を達成したことが示されています。
Original Content
arXiv:2604.21079v1 Announce Type: new
Abstract: Vision-language models benefit from high-resolution images, but the increase in visual-token count incurs high compute overhead. Humans resolve this tension via foveation: a coarse view guides "where to look", while selectively acquired high-acuity evidence refines "what to think". We introduce Foveated Reasoner, an autoregressive vision-language framework that unifies foveation and reasoning within a single decoding trajectory. Starting from a low-resolution view, the model triggers foveation only when needed, retrieves high-resolution evidence from selected regions, and injects it back into the same decoding trajectory. We train the method with a two-stage pipeline: coldstart supervision to bootstrap foveation behavior, followed by reinforcement learning to jointly improve evidence acquisition and task accuracy while discouraging trivial "see-everything" solutions. Experiments show that the method learns effective foveation policies and achieves stronger accuracy under tight visual-token budgets across multiple vision-language benchmarks.