Back to list
From Diffusion to Flow: 効率の高いモーション生成を実現する MotionGPT3
From Diffusion to Flow: Efficient Motion Generation in MotionGPT3
Translated: 2026/4/24 20:14:05
Japanese Translation
arXiv:2603.26747v2 Announce Type: replace-cross
要約:最近のテキスト駆動モーション生成手法は、離散的トークンベースの手法と連続的な潜在変数表現の両方の範疇を-span-しています。MotionGPT3 は後者のパラダイムの典型例であり、学習された連続的なモーション潜在空間と、テキスト条件付き合成のための拡散ベースの事前知識を組み合わせています。修正済みフロー(rectified flow)の目標関数は、画像や音声生成において拡散法に相対的に有利な収束と推論時の特性を示していましたが、これらの優位性がモーション生成の文脈にもそのまま移行するかは未明でした。本研究では、MotionGPT3 の枠組み内で拡散と修正済みフローの目標関数を制御された実証的研究で比較しました。モデルアーキテクチャ、トレーニングプロトコル、および評価設定を固定することで、生成目標がトレーニングダイナミクス、最終的なパフォーマンス、および推論効率に及ぼす効果を分離しました。HumanML3D データセットの試験では、修正済みフローがトレーニングEpoch数の減少により収束し、強力なテストパフォーマンスを早期に到達することを示唆しました。同条件下、修正済みフローは拡散ベースのモーション品質と同等またはそれ以上です。さらに、フローベースの事前知識は推論ステップ数にわたって安定した動作を示し、より少ないサンプリングステップで競争力の高い品質を達成し、効率と品質のトレードオフを改善しました。総じて、これらの結果は修正済みフロー目標関数のいくつかの既知の利点が連続的な潜在変数のテキストからモーション生成にも拡張されることを示唆しており、モーションの事前知識におけるトレーニング目標選択の重要性を強調します。
Original Content
arXiv:2603.26747v2 Announce Type: replace-cross
Abstract: Recent text-driven motion generation methods span both discrete token-based approaches and continuous-latent formulations. MotionGPT3 exemplifies the latter paradigm, combining a learned continuous motion latent space with a diffusion-based prior for text-conditioned synthesis. While rectified flow objectives have recently demonstrated favorable convergence and inference-time properties relative to diffusion in image and audio generation, it remains unclear whether these advantages transfer cleanly to the motion generation setting. In this work, we conduct a controlled empirical study comparing diffusion and rectified flow objectives within the MotionGPT3 framework. By holding the model architecture, training protocol, and evaluation setup fixed, we isolate the effect of the generative objective on training dynamics, final performance, and inference efficiency. Experiments on the HumanML3D dataset show that rectified flow converges in fewer training epochs, reaches strong test performance earlier, and matches or exceeds diffusion-based motion quality under identical conditions. Moreover, flow-based priors exhibit stable behavior across a wide range of inference step counts and achieve competitive quality with fewer sampling steps, yielding improved efficiency-quality trade-offs. Overall, our results suggest that several known benefits of rectified flow objectives do extend to continuous-latent text-to-motion generation, highlighting the importance of the training objective choice in motion priors.