Back to list
arxiv_cs_cv 2026年4月24日

VFM-VAE: 視覚基礎モデルは潜拡散モデルのための優れたトークナイザーにできる

VFM-VAE: Vision Foundation Models Can Be Good Tokenizers for Latent Diffusion Models

Translated: 2026/4/24 19:50:12
latent-diffusion-modelsvision-foundation-modelsvariational-autoencodervisual-tokenizersdeep-learning

Japanese Translation

arXiv:2510.18457v3 Announce Type: replace 要約:潜拡散モデル(LDM)の性能は、その視覚トークナイザーの品質に決定的に依存しています。最近の研究では、VFM 学習に蒸留を通じて LDM トークナイザーに組み込む方法が検討されましたが、我々は実証的に、このアプローチは元々学習された VFM の表現の頑健性を無言に弱めると発見しました。この論文では、蒸留を回避し、凍結された VFM を利用することでより直接的なアプローチを提案します。これを VFM 変分オートエンコーダー(VFM-VAE)と命名しました。凍結された VFM を LDM トークナイザーに活用する潜在的な能力を十分に引き出すため、VFM の富んだ意味的信息表現から現実的な画像を再構築する新しいエンコーダーを設計しました。提案された VFM-VAE を用いて、異なるトークナイザーから得られる表現が拡散トレーニングを通じて表現学習プロセスにどのように影響するかを系統的に調査し、トークナイザーと拡散モデル双方での双方向整列による相乗効果を可能にしました。トークナイザー設計とトレーニング戦略にわたる我々の努力により、卓越した性能と効率性が得られました:システムは従来のトークナイザーと比較して約 10 倍の高速化(80 エポック)で、gFID(w/o CFG)を 2.22 に達しました。640 エポックまでの継続的なトレーニングにより、さらに gFID(w/o CFG)が 1.62 となります。これらの結果は、VFM が LDM トレーニングを加速するための視覚トークナイザーとしての実質的な可能性を実証しています。

Original Content

arXiv:2510.18457v3 Announce Type: replace Abstract: The performance of Latent Diffusion Models (LDMs) is critically dependent on the quality of their visual tokenizers. While recent works have explored incorporating Vision Foundation Models (VFMs) into the tokenizers training via distillation, we empirically find this approach inevitably weakens the robustness of learnt representation from original VFM. In this paper, we bypass the distillation by proposing a more direct approach by leveraging the frozen VFM for the LDMs tokenizer, named VFM Variational Autoencoder (VFM-VAE).To fully exploit the potential to leverage frozen VFM for the LDMs tokenizer, we design a new decoder to reconstruct realistic images from the semantic-rich representation of VFM. With the proposed VFM-VAE, we conduct a systematic study on how the representation from different tokenizers impact the representation learning process throughout diffusion training, enabling synergistic benefits of dual-side alignment on both tokenizers and diffusion models. Our effort in tokenizer design and training strategy lead to superior performance and efficiency: our system reaches a gFID (w/o CFG) of 2.22 in merely 80 epochs (a 10$\times$ speedup over prior tokenizers). With continued training to 640 epochs, it further attains a gFID (w/o CFG) of 1.62. These results offer solid evidence for the substantial potential of VFMs to serve as visual tokenizers to accelerate the LDM training progress.