Back to list
ViCA: 視覚のみで Cross-Attention を持つ効率的なマルチモーダル LLM
ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention
Translated: 2026/3/15 18:04:43
Japanese Translation
arXiv:2602.07574v1 発表タイプ: 新規
要約:現代のマルチモーダル大規模言語モデル (MLLM) は、すべての Transformer レイヤで視覚トークンとテキストトークンを処理する統一された自己注意思念 (self-attention) デザインを採用しており、これは著しい計算オーバーヘッドを生じさせます。本稿では、この稠密な視覚処理の必要性を再考し、投影された視覚エンベッディングはすでに言語空間と十分に整列していること、かつ効果的な視覚 - 言語相互作用は少数のレイヤのみで起きていることを示しました。これらの洞察に基づき、我々は視覚トークンがすべての自己注意思念とフーバー層を跳ね、選択されたレイヤのみで疎なクロス注意 (cross-attention) を介してテキストだけと相互作用する、最小限の MLLM アーキテクチャである ViCA (Vision-only Cross-Attention) を提案しました。3 つの MLLM バックボーン、9 つのマルチモーダルベンチマーク、および 26 つの剪定ベースラインを跨る広範な評価により、ViCA はベースラインの精度の 98% を保ちつつ、視覚側の計算量を 4% に削減し、一貫して優れた性能効率のトレードオフを実現しました。さらに、ViCA は単一バッチ推論で 3.5 倍以上、複数バッチ推論で 10 倍以上の高速化をもたらす、規則的でハードウェアフレンドリーな推論パイプラインを提供し、テキストのみ LLM に比べて視覚 Grounding のオーバーヘッドをほぼゼロに近づけました。ViCA はトークン剪定手法とは直交しており、より高い効率向上のためにシームレスに組み合わせることができます。当社のコードは https://github.com/EIT-NLP/ViCA に利用可能です。
Original Content
arXiv:2602.07574v1 Announce Type: new
Abstract: Modern multimodal large language models (MLLMs) adopt a unified self-attention design that processes visual and textual tokens at every Transformer layer, incurring substantial computational overhead. In this work, we revisit the necessity of such dense visual processing and show that projected visual embeddings are already well-aligned with the language space, while effective vision-language interaction occurs in only a small subset of layers. Based on these insights, we propose ViCA (Vision-only Cross-Attention), a minimal MLLM architecture in which visual tokens bypass all self-attention and feed-forward layers, interacting with text solely through sparse cross-attention at selected layers. Extensive evaluations across three MLLM backbones, nine multimodal benchmarks, and 26 pruning-based baselines show that ViCA preserves 98% of baseline accuracy while reducing visual-side computation to 4%, consistently achieving superior performance-efficiency trade-offs. Moreover, ViCA provides a regular, hardware-friendly inference pipeline that yields over 3.5x speedup in single-batch inference and over 10x speedup in multi-batch inference, reducing visual grounding to near-zero overhead compared with text-only LLMs. It is also orthogonal to token pruning methods and can be seamlessly combined for further efficiency gains. Our code is available at https://github.com/EIT-NLP/ViCA.