Back to list
arxiv_cs_lg 2026年2月10日

あなたの探している機能はこれらに限定されない:監督学習の前準備における根本的なボトルネック

These Are Not All the Features You Are Looking For: A Fundamental Bottleneck in Supervised Pretraining

Translated: 2026/3/15 13:02:55
transfer-learningpretrained-modelssupervised-pretrainingmodel-ensembledeep-learning

Japanese Translation

arXiv:2506.18221v3 Announce Type: replace 要約:転移学習は、少量の新しいデータを使用して大規模な事前トレーニング済みモデルを新たなタスクに適応させるために広く使われています。しかし、課題は依然存在しています — 元のタスクからの特徴は、特にタスク間の関連性が不明な場合、未見データに必要なものを十分に網羅していないことがありますが、その関連性が不明な場合、未見データに必要なものを十分に網羅していないことが多いです。ディープラーニングモデルは非常にスパースな表現を学ぶ傾向があるため、初期トレーニングに必要な最小限の特徴のみを保持し、downstream 転移に使われる可能性がある他の特徴を捨却してしまいます。本稿で開発された理論的枠組みは、そのような事前トレーニングがデータ分布の不整合な側面のみを捉え、転移バイアスを誘発すると示しています。この制限に対処するため、本稿では複数のモデルをアグリゲートしてより豊かな特徴表現を生成する低コストなアンサンブル戦略を提案します。ResNet において、このアプローチは追加の事前トレーニングコストを課すことなく転移精度を 9% 向上させました。我々は、現代のディープラーニングアーキテクチャにわたってこの現象が普遍的であることを確認する、幅広いディープラーニング研究からの経験的事実も提示しています。これらの結果は、単に大規模な事前トレーニングネットワークに頼ることは、モデルの汎化能力を向上させる最も効果的な方法ではないことを示唆しています。代わりに、モデルアンサンブルなどを通じて、より豊かで多様な表現を創出することは、転移学習のパフォーマンスを著しく向上させることができます。

Original Content

arXiv:2506.18221v3 Announce Type: replace Abstract: Transfer learning is widely used to adapt large pretrained models to new tasks with only a small amount of new data. However, a challenge persists -- the features from the original task often do not fully cover what is needed for unseen data, especially when the relatedness of tasks is not clear. Since deep learning models tend to learn very sparse representations, they retain only the minimal features required for the initial training while discarding potentially ones for downstream transfer. A theoretical framework developed in this work demonstrates that such pretraining captures inconsistent aspects of the data distribution, therefore, inducing transfer bias. To address this limitation, we propose an inexpensive ensembling strategy that aggregates multiple models to generate richer feature representations. On ResNet, this approach yields a $9\%$ improvement in transfer accuracy without incurring extra pretraining cost. We also present empirical evidence from a range of deep learning studies, confirming that the phenomenon is pervasive across modern deep learning architectures. These results suggests that relying solely on large pretrained networks is not always the most effective way to improve model generalization. Instead, fostering richer, more diverse representations -- e.g. - through model ensembles -- can substantially enhance transfer learning performance.