Back to list
補助学習を活用した大規模推薦システムの性能向上
Improving Large-Scale Recommender Systems with Auxiliary Learning
Translated: 2026/4/24 20:08:46
Japanese Translation
arXiv:2510.02215v3 Announce Type: replace
Abstract: 大規模な推薦モデルを単一のグローバル目的関数でトレーニングする際には、ユーザー集団全体が均質であると暗黙的に仮定されます。しかし、現実世界のデータは、異なる条件付き分布を有する多様な層( heterogeneous cohorts)の複合体です。モデルが規模と複雑性の増大、およびトレーニングデータの増加に伴い、それらは中央分布のパターンによって支配され、ヘッダー(head)およびテール(tail)領域が見過ごされるようになります。この偏りによるバランスの崩れは、モデルの学習能力を制限し、無効化された注意力ウェイトやデッドニューロンの発生を引き起こす可能性があります。本論文では、注意メカニズムがファクタリングマシンにおける共有埋め込み選択において中心的役割を果たす方法を明らかにし、データセット内の構造を分析し、強い分布的对比を有するサブ構造を補助学習(auxiliary learning)によって浮き彫りにすることでこの課題に対処する提案を行います。過去の研究が、バイアスを緩和するために重み付きラベルをヘウリスティックに適用したり、マルチタスクヘッドを使用したりしたのに対し、当のアプローチは部分衝突する補助ラベルを活用して共有表現を正規化します。この手法は、多数派の集団との相互情報を保ちつつグローバルな性能を向上させるために、注意層の学習過程をカスタマイズします。当アプローチは、6 つの SOTA モデルを対象とし、それぞれ数十億点に及ぶ大規模本格的データセット上で評価しました。実験結果は、提案された手法を用いることでファクタリングマ신이細粒なユーザー - アップロード相互作用を捉えられることを示しており、全体としての正規化エンタロピーは最大 0.16% 削減されること、標的とした少数派集団においては 0.30% を超える改善効果が得られたことを確認しました。
Original Content
arXiv:2510.02215v3 Announce Type: replace
Abstract: Training large-scale recommendation models under a single global objective implicitly assumes homogeneity across user populations. However, real-world data are composites of heterogeneous cohorts with distinct conditional distributions. As models increase in scale and complexity and as more data is used for training, they become dominated by central distribution patterns, neglecting head and tail regions. This imbalance limits the model's learning ability and can result in inactive attention weights or dead neurons. In this paper, we reveal how the attention mechanism can play a key role in factorization machines for shared embedding selection, and propose to address this challenge by analyzing the substructures in the dataset and exposing those with strong distributional contrast through auxiliary learning. Unlike previous research, which heuristically applies weighted labels or multi-task heads to mitigate such biases, we leverage partially conflicting auxiliary labels to regularize the shared representation. This approach customizes the learning process of attention layers to preserve mutual information with minority cohorts while improving global performance. We evaluated proposed method on massive production datasets with billions of data points each for six SOTA models. Experiments show that the factorization machine is able to capture fine-grained user-ad interactions using the proposed method, achieving up to a 0.16% reduction in normalized entropy overall and delivering gains exceeding 0.30% on targeted minority cohorts.