Back to list
MAMBO-G: 尺度感知による強化された導引の改善
MAMBO-G: Magnitude-Aware Mitigation for Boosted Guidance
Translated: 2026/3/15 8:02:33
Japanese Translation
arXiv:2508.03442v4 発表タイプ:置換
要約:高品質なテキストから画像、およびテキストからビデオの生成は通常、クラスファイヤーフリー導引 (CFG) に依存しますが、最適な結果を得るためには計算コストの高いサンプリングスケジュールが必要です。この研究では、動的に導引の規模を最適化することで計算コストを劇的に削減する、学習なしの加速フレームワーク「MAMBO-G」を提案します。標準的な CFG スケジュールは、初期段階において相対的に大きな更新を適用することにより収束速度を妨げる非効率的であることを発見しました。MAMBO-G は、更新値との予測値の比率に基づいて導引スケールを調節することでこれを緩和し、経路を安定化すると同時に高速な収束を可能にします。この効率性は、ビデオ生成などのリソース集約型タスクにおいて特に重要です。私々の手法は、Stable Diffusion v3.5 (SD3.5) で最大 3 倍、Lumina で 4 倍の速度向上を実現する、汎用的なプレッグエンドプレイ型アクセラレータです。特に注目すべきは、140 億パラメータの Wan2.1 動画モデルを 2 倍加速させつつ可視的忠実度を維持できる点です。これは、効率的な大規模なビデオ合成のための実用的な解決策となります。実装はメインストリームのオープンソース拡散フレームワークに従い、既存のパイプラインとの互換性があります。
Original Content
arXiv:2508.03442v4 Announce Type: replace
Abstract: High-fidelity text-to-image and text-to-video generation typically relies on Classifier-Free Guidance (CFG), but achieving optimal results often demands computationally expensive sampling schedules. In this work, we propose MAMBO-G, a training-free acceleration framework that significantly reduces computational cost by dynamically optimizing guidance magnitudes. We observe that standard CFG schedules are inefficient, applying disproportionately large updates in early steps that hinder convergence speed. MAMBO-G mitigates this by modulating the guidance scale based on the update-to-prediction magnitude ratio, effectively stabilizing the trajectory and enabling rapid convergence. This efficiency is particularly vital for resource-intensive tasks like video generation. Our method serves as a universal plug-and-play accelerator, achieving up to 3x speedup on Stable Diffusion v3.5 (SD3.5) and 4x on Lumina. Most notably, MAMBO-G accelerates the 14B-parameter Wan2.1 video model by 2x while preserving visual fidelity, offering a practical solution for efficient large-scale video synthesis. Our implementation follows a mainstream open-source diffusion framework and is plug-and-play with existing pipelines.