Back to list
BARD: 自動回帰と拡散に基づくビジョン・言語モデルを効率的なプログレッシブブロックマージと段階的蒸留で統合する
BARD: Bridging AutoRegressive and Diffusion Vision-Language Models Via Highly Efficient Progressive Block Merging and Stage-Wise Distillation
Translated: 2026/4/24 20:14:19
Japanese Translation
arXiv:2604.16514v3 Announce Type: replace-cross
要約:自動回帰型ビジョン・言語モデル(VLM)は強力なマルチモーダル機能を提供しますが、トークンごとの推論処理が根本的なボトルネックとなっています。拡散型 VLM はより並列的な推論パラダイムを可能にしますが、事前学習済みの自動回帰型 VLM を直接大規模ブロックの拡散型 VLM(dVLM)に転換すると、品質の著しい低下を引き起こす傾向があります。本稿では、事前学習済みの自動回帰型 VLM を、同一アーキテクチャかつ推論効率の高い dVLM へ転換するための単純かつ有効な BARD(Bridging AutoRegressive and Diffusion Vision-Language Models)フレームワークを提案します。当アプローチは、逐次监督的ブロックマージ(推論ブロックサイズを段階的に拡大する)と、固定された小規模ブロックの拡散アンカーからの dVLM 内蒸留(ステージバイステージ distillation)を組み合わせ、大規模ブロックにおける品質低下を回復させます。さらに、ノイズの減衰プロセスにおける頑健性とトークンの修正を向上させる混合ノイズスケジューラー、および長尺マルチモーダルシークエンスの効率的なトレーニングを可能にするメモリーフレンドリーなトレーニング法を取り入れます。主要な実証結果は、直接的な自動回帰から拡散への蒸留は不良整合を起こし、場合によっては性能を悪化させる一方で、拡散領域内の蒸留が一貫して効果的であることを示しています。実験結果は、4.4M データ以下で BARD-VL が Qwen3-VL から強力なマルチモーダル機能を大規模ブロック dVLM へ transfer できることを示しました。特に、BARD-VL は評価スイートにおいて 4B および 8B スケーリングともに、同規模の公開 dVLM 群において新たな SOTA を確立しました。同時に、BARD-VL はソースモデルと比較して最大 3 倍のデコーディング処理速度の向上を実現しました。コードは GitHub で入手可能です: https://github.com/fudan-generative-vision/Bard-VL
Original Content
arXiv:2604.16514v3 Announce Type: replace-cross
Abstract: Autoregressive vision-language models (VLMs) deliver strong multimodal capability, but their token-by-token decoding imposes a fundamental inference bottleneck. Diffusion VLMs offer a more parallel decoding paradigm, yet directly converting a pretrained autoregressive VLM into a large-block diffusion VLM (dVLM) often leads to substantial quality degradation. In this work, we present BARD, a simple and effective bridging framework that converts a pretrained autoregressive VLM into a same-architecture, decoding-efficient dVLM. Our approach combines progressive supervised block merging, which gradually enlarges the decoding block size, with stage-wise intra-dVLM distillation from a fixed small-block diffusion anchor to recover performance lost at larger blocks. We further incorporate a mixed noise scheduler to improve robustness and token revision during denoising, and memory-friendly training to enable efficient training on long multimodal sequences. A key empirical finding is that direct autoregressive-to-diffusion distillation is poorly aligned and can even hurt performance, whereas distillation within the diffusion regime is consistently effective. Experimental results show that, with $\leq$ 4.4M data, BARD-VL transfers strong multimodal capability from Qwen3-VL to a large-block dVLM. Remarkably, BARD-VL establishes a new SOTA among comparable-scale open dVLMs on our evaluation suite at both 4B and 8B scales. At the same time, BARD-VL achieves up to 3$\times$ decoding throughput speedup compared to the source model. Code is available at: $\href{https://github.com/fudan-generative-vision/Bard-VL}{this~https~URL}$.