Back to list
arxiv_cs_lg 2026年2月10日

MaD-Mix: Latent Space Coupling によるビジョン・ランゲージモデルの学習のためのマルチモーダルデータミックス

MaD-Mix: Multi-Modal Data Mixtures via Latent Space Coupling for Vision-Language Model Training

Translated: 2026/3/15 14:48:06
vision-language-modelsmulti-modal-learningdata-mixingarxiv-2602machine-learning

Japanese Translation

arXiv:2602.07790v1 発表タイプ:新規 要約:ビジョン・ランゲージモデル (VLMs) は、通常、多様なマルチモーダルドメインに対して訓練され、しかし現在の慣行は高コストな手動チューニングに依存しています。我々は、VLM 訓練用のマルチモーダルデータミックスを導くための確立的で計算効率の良いフレームワークである MaD-Mix を提案します。MaD-Mix は、データミックスをモーダルیتー意識的なドメイン整合最大化として定義し、Fenchel 対から間モーダル結合変数を通じて閉じた形のマルチモーダル整合スコアを導き出します。MaD-Mix は欠落するモーダルを持つドメインをシステム的に処理することができ、言語専用ドメインの統合を許容します。0.5B と 7B モデルにわたる実証評価は、MaD-Mix が多様なベンチマークにおいて VLM 訓練を加速することを示しています。画像テキスト指令調整において、MaD-Mix は 22% fewer training steps を使用して人と同じデータミックスに匹敵し、複雑なトリモーダル映像画像テキストシナリオにおいて、手動チューニングが実用的でない状況では、平均精度を均一重みよりも向上させ、混合計算オーバーヘッダーが極めて小さい (< 1 GPU 時間) として、現代の VLM パイプラインのためのスケーラブルなミックス設計を可能にします。

Original Content

arXiv:2602.07790v1 Announce Type: new Abstract: Vision-Language Models (VLMs) are typically trained on a diverse set of multi-modal domains, yet current practices rely on costly manual tuning. We propose MaD-Mix, a principled and computationally efficient framework that derives multi-modal data mixtures for VLM training. MaD-Mix formulates data mixing as modality-aware domain alignment maximization and obtains closed-form multi-modal alignment scores from the Fenchel dual through inter-modal coupling variables. MaD-Mix systematically handles domains with missing modalities, allowing for the integration of language-only domains. Empirical evaluations across 0.5B and 7B models demonstrate that MaD-Mix accelerates VLM training across diverse benchmarks. MaD-Mix matches human-tuned data mixtures using 22% fewer training steps in image-text instruction tuning. In complex tri-modal video-image-text scenarios, where manual tuning becomes impractical, MaD-Mix boosts average accuracy over uniform weights, with negligible mixture computation overhead (< 1 GPU-hour), enabling scalable mixture design for modern VLM pipelines.