Back to list
当 LLaVA がオブジェクトと遭遇する時:ビジョン言語モデルのトークン組成
When LLaVA Meets Objects: Token Composition for Vision-Language-Models
Translated: 2026/3/15 16:08:22
Japanese Translation
arXiv:2602.04864v2 発表型:更新
概要:現在の自己回帰的なビジョン言語モデル(VLM)は、画像を表現するために多くの視覚的トークンに頼っており、特に推論時にはより多くの計算リソースが必要となります。この問題に対処するため、私たちは Mask-LLaVA というフレームワークを提案しました。このフレームワークは、自己回帰的 VLM に対して、コンパクトかつ情報豊富であるための視覚表現を作成するために、異なるレベルの視覚的特徴を活用します。具体的には、マスクベースのオブジェクト表現とグローバルトークン、ローカルパッチトークンを組み合わせます。すべてのトークンはトレーニング中に使用されますが、推論時にはマスクベースのオブジェクトトークンの数、特にその数を柔軟に削除できることが示されました。これにより、モデルを再トレーニングすることなく、推論中にトークンの数を適応させることが可能となり、性能に大きな低下はありません。我々は標準ベンチマークの一連を実験を行い、現在のトークン効率の良い手法と比較した結果、元の LLaVA ベースラインと比較した結果、視覚的トークンのほんの一部のみで取得できることを示しました。我々の分析は、マルチレベル特徴の結合が、トークンの少なさで効率的な学習を可能にし、同時に推論時に良い性能を実現するために動的トークン選択を許容することを示しています。
Original Content
arXiv:2602.04864v2 Announce Type: replace
Abstract: Current autoregressive Vision Language Models (VLMs) usually rely on a large number of visual tokens to represent images, resulting in a need for more compute especially at inference time. To address this problem, we propose Mask-LLaVA, a framework that leverages different levels of visual features to create a compact yet information-rich visual representation for autoregressive VLMs. Namely, we combine mask-based object representations together with global tokens and local patch tokens. While all tokens are used during training, it shows that the resulting model can flexibly drop especially the number of mask-based object-tokens at test time, allowing to adapt the number of tokens during inference without the need to retrain the model and without a significant drop in performance. We evaluate the proposed approach on a suite of standard benchmarks showing results competitive to current token efficient methods and comparable to the original LLaVA baseline using only a fraction of visual tokens. Our analysis demonstrates that combining multi-level features enables efficient learning with fewer tokens while allowing dynamic token selection at test time for good performance.