Back to list
arxiv_cs_cv 2026年2月10日

EasyTune: 拡散ベースの動き生成のための効率的なステップ認知微調整

EasyTune: Efficient Step-Aware Fine-Tuning for Diffusion-Based Motion Generation

Translated: 2026/3/15 19:03:11
diffusion-modelsmotion-generationfine-tuningreinforcement-learningcomputer-vision

Japanese Translation

arXiv:2602.07967v1 発表タイプ:新 要旨:近年、動き生成モデルは著しい進歩を遂げたにもかかわらず、下流タスクとの整合性という課題を抱えています。最近の研究は、拡散モデルの好みを直接的に合わせるために微分可能な報酬を使用することで有望な結果をもたらすことを示しています。しかし、これらの手法は (1) 非効率的で粗い粒度の最適化と (2) 高いメモリ消費に苦しんでいます。本稿では、我々はこれらの限界の根本的な理由として、去ノイズ経路内のステップ間の帰列的依存関係を理論的かつ経験的に特定します。この洞察を踏まえ、EasyTune を提案し、去ノイズステップごとに拡散モデルを微調整するようにしました。これにより、帰列的依存が解除され、(1) 高密度で細粒度かつ (2) メモリ効率の良い最適化を可能にします。さらに、好みを持つ動き対の希少性が動き報酬モデルのトレーニングの可用性を制限しています。そのためには、動的に好み対を特定し好みを学習する Self-refinement Preference Learning (SPL) メカニズムを導入しました。大規模実験は、EasyTune が DRaFT-50 よりも MM-Dist における整合性の面で 8.2% 改善しており、追加メモリオーバーヘッドは 31.16% に抑えられながらトレーニング速度を 7.3 倍高速化できることを示しています。プロジェクトページは以下のリンクにあります {https://xiaofeng-tan.github.io/projects/EasyTune/index.html}。

Original Content

arXiv:2602.07967v1 Announce Type: new Abstract: In recent years, motion generative models have undergone significant advancement, yet pose challenges in aligning with downstream objectives. Recent studies have shown that using differentiable rewards to directly align the preference of diffusion models yields promising results. However, these methods suffer from (1) inefficient and coarse-grained optimization with (2) high memory consumption. In this work, we first theoretically and empirically identify the key reason of these limitations: the recursive dependence between different steps in the denoising trajectory. Inspired by this insight, we propose EasyTune, which fine-tunes diffusion at each denoising step rather than over the entire trajectory. This decouples the recursive dependence, allowing us to perform (1) a dense and fine-grained, and (2) memory-efficient optimization. Furthermore, the scarcity of preference motion pairs restricts the availability of motion reward model training. To this end, we further introduce a Self-refinement Preference Learning (SPL) mechanism that dynamically identifies preference pairs and conducts preference learning. Extensive experiments demonstrate that EasyTune outperforms DRaFT-50 by 8.2% in alignment (MM-Dist) improvement while requiring only 31.16% of its additional memory overhead and achieving a 7.3x training speedup. The project page is available at this link {https://xiaofeng-tan.github.io/projects/EasyTune/index.html}.