Back to list
産生的な思考再ランク
Generative Reasoning Re-ranker
Translated: 2026/3/7 12:41:16
Japanese Translation
最新の研究では大規模な言語モデル(LLMs)が推奨システムの新しいパラダイムとして検討されており、それを採用する理由はLLMsがスケーラビリティと世界の知識に富んでいることです。しかし、現在進行中の工作には以下の3つの基本的な制限があります。 (1) 最も効力が凝らされた努力は返却およびランク付け、そしてその再ランクリングフェーズ、最終推奨に refinining を目指す重要なステップを取り除いています。 (2) LLMs はゼロショットや監督的な細かいオーフィンを通常使い、これらによって強化学習(RL)と高品質な理由のデータが LLMS の推理能力を開発していないです 。 (3) 物品は非視覚的な識別子で表現されることが多く、この種の工業システムにおける数十億個の識別子に伴う主要なスケーラビリティ課題を引き起こします。これらのことに対し、我々はGenerative Reasoning Reranker (GR2) という新しい事例全体のフレームワークを開発し、返却およびランク付けで最適化するための3段階のトレーニングパイプラインを生み出しました。第1段階:予め学習されたLLMsは非視覚的な識別子からシンムニなIDをエンコードするためにテキストネイショナルを使用し $ extgreater等于99%$ の唯一性を持って中間学習に取り組みました。 第2の段階:大きなLLMsが生成的に優れた理由のパスを通じて特定されたプromptとリジェンスサンプリングを使用して詳細を設計した上で高品質な理由のパスを持ってサブルーティーイントの手順で強固な基礎的な推理スキルを導入します。そして、最終段階は、Decoupled Clip と Dynamic SAM Policy Optimization (DAPO) の使用によって対スケール可能なRL監督が適用されます、このデザインされた評価に対するリロード賞を与えることは設計が専門的に対応しています 。 GR2の実験では、2つのリアルタイムデータセットを使用し、その有効性を示しました:記述のレコイルThink-Thinkよりも2.4%のリコール@5 と1.3 のNDCG@5が超越されています。 减項が確定的な評価により合理的なトレースが優位に立っていますため。我々はさらにこれが再ランクの重要性を示しています: RL 報利の設定は、LLMs が賞を与えられるべきリコールを探索する傾向があり、それはレポートの動作を動機付けます これらの行動に対する事なる評価によりこの行動が削減され、推奨付与の性能を最適化します。
Original Content
arXiv:2602.07774v1 Announce Type: cross
Abstract: Recent studies increasingly explore Large Language Models (LLMs) as a new paradigm for recommendation systems due to their scalability and world knowledge. However, existing work has three key limitations: (1) most efforts focus on retrieval and ranking, while the reranking phase, critical for refining final recommendations, is largely overlooked; (2) LLMs are typically used in zero-shot or supervised fine-tuning settings, leaving their reasoning abilities, especially those enhanced through reinforcement learning (RL) and high-quality reasoning data, underexploited; (3) items are commonly represented by non-semantic IDs, creating major scalability challenges in industrial systems with billions of identifiers. To address these gaps, we propose the Generative Reasoning Reranker (GR2), an end-to-end framework with a three-stage training pipeline tailored for reranking. First, a pretrained LLM is mid-trained on semantic IDs encoded from non-semantic IDs via a tokenizer achieving $\ge$99% uniqueness. Next, a stronger larger-scale LLM generates high-quality reasoning traces through carefully designed prompting and rejection sampling, which are used for supervised fine-tuning to impart foundational reasoning skills. Finally, we apply Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO), enabling scalable RL supervision with verifiable rewards designed specifically for reranking. Experiments on two real-world datasets demonstrate GR2's effectiveness: it surpasses the state-of-the-art OneRec-Think by 2.4% in Recall@5 and 1.3% in NDCG@5. Ablations confirm that advanced reasoning traces yield substantial gains across metrics. We further find that RL reward design is crucial in reranking: LLMs tend to exploit reward hacking by preserving item order, motivating conditional verifiable rewards to mitigate this behavior and optimize reranking performance.