Back to list
arxiv_cs_ai 2026年2月10日

バッキーベーストモデル統合による一貫性のある一般的なテキスト抽出モデル

Bagging-Based Model Merging for Robust General Text Embeddings

Translated: 2026/3/1 14:32:42

Japanese Translation

一般用途のテキスト抽出モデルは、幅広い自然言語処理(NLP)と情報検索(IIR)アプリケーションを支えています。これらモデルの大規模なマルチタスクコーディングを使用してトレーニングされると、多角的な一般化が促進されます。ただし、同じマルチタスクのトレーニング戦略が実際に比較可能であり、新しいドメインとデータタイプが継続的に出現するので、どのようにそれらを効率的に適応すべきかについては、まだ明確ではありませんでした。この研究では、2つの視点からテキスト抽出モデルにおけるマルチタスクトレーニングを系統的な調査しました。データスケジューリングとモデル統合の両方です。バッチレベルのシャuffling、順序付きトレーニングの変異バージョン、2段階からのトレーニング、複数のマージグレネーションの比較を行いました。そして、バッチレベルのスクラッピングは実質的なパフォーマンスを常に最強であると示しましたが、トライアル後のドメイン(OOD)との一般化が不完全なものであり、インクリメンタル学習に適さないと述べることを付け加えておきます。そのため、効果性を持つBaggingベースのrobustモデル統合(BOOM)について提案しました。これは、サンプリングサブセットに対して重ね合わせ模型をトレーニングし、それらを1つのモデルに統合します。インクリメンタルアップデートにおいても自然に軽量な更新モジュールを使用することにより、一貫性のある強度と単元モデルの予測効率の保持が可能であるように改善されます。また、その新しいデータに対する歴史的なサブセットに対してトレーニングを訓練し、それらを既存のモデルに統合することで効果的なインクリメンタルアップデートが解決されることになります。様々な事例対象のベクトルベンチマーケットにおける実験では、全コーディングスクラッピングに対応したトライアル内のOODとその他の性能が一貫的に改善されるだけでなく、インクリメンタルドコースのトレーニングコストを大幅に削減することになります。

Original Content

arXiv:2602.05787v2 Announce Type: replace-cross Abstract: General-purpose text embedding models underpin a wide range of NLP and information retrieval applications, and are typically trained on large-scale multi-task corpora to encourage broad generalization. However, it remains unclear how different multi-task training strategies compare in practice, and how to efficiently adapt embedding models as new domains and data types continually emerge. In this work, we present a systematic study of multi-task training for text embeddings from two perspectives: data scheduling and model merging. We compare batch-level shuffling, sequential training variants, two-stage training, and multiple merging granularities, and find that simple batch-level shuffling consistently yields the strongest overall performance, suggesting that task conflicts are limited and training datasets are largely complementary. Despite its effectiveness, batch-level shuffling exhibits two practical limitations: suboptimal out-of-domain (OOD) generalization and poor suitability for incremental learning due to expensive full retraining. To address these issues, we propose Bagging-based rObust mOdel Merging (BOOM), which trains multiple embedding models on sampled subsets and merges them into a single model, improving robustness while retaining single-model inference efficiency. Moreover, BOOM naturally supports efficient incremental updates by training lightweight update models on new data with a small historical subset and merging them into the existing model. Experiments across diverse embedding benchmarks demonstrate that BOOM consistently improves both in-domain and OOD performance over full-corpus batch-level shuffling, while substantially reducing training cost in incremental learning settings.