Back to list
周波数強制: スケーリング・アズ・タイムからソフト周波数誘導へ
Frequency-Forcing: From Scaling-as-Time to Soft Frequency Guidance
Translated: 2026/4/24 20:21:01
Japanese Translation
arXiv:2604.20902v1 Announce Type: cross
要約: 標準的なフローマッチングモデルがノイズをデータに均一に移動させる一方で、明確な生成順序(粗い低周波成分から細かい高周波詳細へと順序立てる)を導入することで、自然画像の合成において高い効果が得られていることが証明されています。最近の 2 つの研究が、この分野の異なるパラダイムを提示しています。K-Flow は周波数変換変数をフロー時間として再解釈することで、厳密な周波数制約を課し、変換された振幅空間内で軌跡を演算します。Latent Forcing は、異同期時間スケジュールによってピクセルフローを補助的なセマンティック潜在フローと結合することで、ソフトな順序付け機構を提供し、ピクセル補間パスそのものを触らずに動作します。ピクセル生成の観点から見た場合、「強制(フォーシング)」――つまり、より早期に成熟する補助ストリームによって生成を誘導する手法――は、コアのフロー座座記を書き換えることなしにスケール順の生成を実現するための非常に統合的なルートであることを示しています。これに基づき、私たちが提案した「周波数強制」は、Latent Forcing のソフト機構を通じて K-Flow の周波数順序を実現します:標準的なピクセルフローは、より早期に成熟する時間における補助的な低周波ストリームによって誘導されます。Latent Forcing とは異なり、そのスカラーパッドが重たい事前トレーニングされたエンコーダー(例:DINO)に依存する一方で、私たちの周波数スカラーパッドは軽量な学習可能ウェーブレットパケット変換を用いてデータ自体から導出されます。これを「自己強制信号」と呼びます。これは外部の依存関係を避けるだけでなく、データ統計に対してより適応したベースを学習でき、硬い周波数フローで使われる固定されたベースよりも優れています。ImageNet-256において、周波数強制は強力なピクセル空間および潜在空間のベースラインに対して一貫して FID を改善し、さらにセマンティックストリームと自然に組み合わせることでさらなる成績の向上を達成します。これは、強制ベースのスケール順序付けが硬い周波数フローに対する柔軟で、経路を維持する代替手段であることを示しています。
Original Content
arXiv:2604.20902v1 Announce Type: cross
Abstract: While standard flow-matching models transport noise to data uniformly, incorporating an explicit generation order - specifically, establishing coarse, low-frequency structure before fine detail - has proven highly effective for synthesizing natural images. Two recent works offer distinct paradigms for this. K-Flow imposes a hard frequency constraint by reinterpreting a frequency scaling variable as flow time, running the trajectory inside a transformed amplitude space. Latent Forcing provides a soft ordering mechanism by coupling the pixel flow with an auxiliary semantic latent flow via asynchronous time schedules, leaving the pixel interpolation path itself untouched. Viewed from the angle of improving pixel generation, we observe that forcing - guiding generation with an earlier-maturing auxiliary stream - offers a highly compatible route to scale-ordered generation without rewriting the core flow coordinate. Building on this, we propose Frequency-Forcing, which realizes K-Flow's frequency ordering through Latent Forcing's soft mechanism: a standard pixel flow is guided by an auxiliary low-frequency stream that matures earlier in time. Unlike Latent Forcing, whose scratchpad relies on a heavy pretrained encoder (e.g., DINO), our frequency scratchpad is derived from the data itself via a lightweight learnable wavelet packet transform. We term this a self-forcing signal, which avoids external dependencies while learning a basis better adapted to data statistics than the fixed bases used in hard frequency flows. On ImageNet-256, Frequency-Forcing consistently improves FID over strong pixel- and latent-space baselines, and naturally composes with a semantic stream to yield further gains. This illustrates that forcing-based scale ordering is a versatile, path-preserving alternative to hard frequency flows.