Back to list
arxiv_cs_ai 2026年4月24日

IRIS: 連続調整可能な Rényi ベースの反復自己対戦による大規模言語モデルの微調整

IRIS: Interpolative R\'enyi Iterative Self-play for Large Language Model Fine-Tuning

Translated: 2026/4/24 20:21:53
irisllmfine-tuningself-playreinforcement-learning

Japanese Translation

arXiv:2604.20933v1 発表型:クロス 要約:自己対戦による微調整(self-play fine-tuning)は、追加された人間によるアノテーションなしに、大規模言語モデルを監督済み微調整を超えて進化させることを可能にします。既存の多くの手法は固定された散発的な制約に依存しています。SPIN は KL 分散に基づく制約と密接に関連し、SPACE はノイズコントラスト估计を用いた Jensen-Shannon スタイルの目的関数、SPIF は $\χ^2$-正規化された自己対戦に基づいています。これらの分散はモデルと標本的な間の分布的なギャップに応じて異なる強みを示すため、訓練の段階全体に好適な学習ダイナミクスをもたらす単一の選択は存在しません。我々は、順序パラメータ $\\u03b1$ で制御された指数重み付きの両方のデータセットに対する独立した傾斜リスク項から構成される、Rényi ベースの自己対戦微調整枠組みである IRIS(Interpolative Rényi Iterative Self-play)を提案します。我々は、複数の自己対戦目的関数が $\\u03b1$ の特定の値における制限的または代表的な制約と解釈でき、これらの手法に対して一元的な理論的視点を提供することを示しました。さらに適応的な順序スケジューリングにより、$\\u03b1$ は分布的なギャップに適応され、訓練の早期段階ではより鋭い重要性付けから、収近への段階ではより滑らかな-refinement へと移行します。理論的には、IRIS の不動点の性質を確立し、$\\u03b1$ が勾配の集中どのように制御するかを解析しました。Zephyr-7B と Qwen2.5-3B にわたる 10 つのベンチマークにおける実験により、IRIS はベースラインを改善し、反復全体にわたって点の増加を遂げ、平均得点 44.57% を達成しました。私たちの設定において、IRIS は 26k のアノテーションサンプルのみを使用して、200k データセットを備えた通常の監督済み微調整を凌駕しました。

Original Content

arXiv:2604.20933v1 Announce Type: cross Abstract: Self-play fine-tuning enables large language models to improve beyond supervised fine-tuning without additional human annotations by contrasting annotated responses with self-generated ones. Many existing methods rely on a fixed divergence regime. SPIN is closely related to a KL-based regime, SPACE to a Jensen-Shannon-style objective via noise contrastive estimation, and SPIF to $\chi^2$-regularized self-play. Since these divergences exhibit different strengths depending on the distributional gap between model and target, no single choice appears to provide favorable learning dynamics across training stages. We propose IRIS (Interpolative R\'enyi Iterative Self-play), a R\'enyi-based self-play fine-tuning framework with a continuously adjustable objective. IRIS decomposes into two independent tilted risk terms over annotated and synthetic data, with exponential importance weights controlled by the order parameter $\alpha$. We show that several self-play objectives can be interpreted as limiting or representative regimes at particular values of $\alpha$, providing a unified theoretical perspective on these methods. An adaptive order schedule further adjusts $\alpha$ to the distributional gap, shifting from sharper importance weighting early in training to smoother refinement near convergence. Theoretically, we establish the fixed-point property of IRIS and analyze how $\alpha$ controls gradient concentration. Experiments on Zephyr-7B and Qwen2.5-3B across ten benchmarks show that IRIS improves upon baselines, reaching 44.57\% average score with gains across iterations. In our setting, IRIS with only 26$k$ annotated samples surpasses standard supervised fine-tuning trained on the full 200$k$ dataset.