Back to list
拡散モデルを用いた並列的・時空間超解像のスケール適応的枠組み
A Scale-Adaptive Framework for Joint Spatiotemporal Super-Resolution with Diffusion Models
Translated: 2026/4/24 20:29:31
Japanese Translation
arXiv:2604.21903v1 Announce Type: cross
抽象:ディープラーニングによる動画超解像技術は急速に発展しましたが、気候分野においては通常、空間または時間側だけで解像度を向上(超解像)が行われ、同時的な時空間モデルは、低解像度シーケンスと高解像度シーケンスの空間縮小率と時間間隔(フレームレート)のペアに特化した設計が一般的です。これにより、空間解像度や時間間隔の異なった環境への適用が制限されています。本研究では、確定的な条件期待値の予測(注意機構を用い)、そして残差条件拡散モデル(オプションの質量保存変換を用いて、入力値と出力値の総量を保つ)に分解することで、同じアーキテクチャを複数の解像度スケールで再利用可能なスケール適応的枠組みを提案します。より大きな超解像ファクターは、条件期待値構造そのものの変化よりも、不特定性(ゆえに必須となる文脈および残差不確実性)を増加させるものと仮定し、スケール適応性を実現するために、再トレーニング前の3つの因子依存型ハイパーパラメータの再チューニングを行います:拡散ノイズスケジュール振幅ベータ(大きい因子に対応し多様性を高めるため大きく設定)、時間文脈長さL(間隔に応じた比較可能な注意範囲を維持するため設定)、およびオプションとして3番目の質量保存関数f(大きな因子における極値の増幅を制限するためテーパリング)。フランスの再解析降水量(Comephore)を用いた実証において、同じアーキテクチャは空間因子1〜25、時間因子1〜6の範囲を跨ることを示しました。これにより、マルチスケール並列的・時空間超解像への再利用可能なアーキテクチャとチューニング手法を提供しました。
Original Content
arXiv:2604.21903v1 Announce Type: cross
Abstract: Deep-learning video super-resolution has progressed rapidly, but climate applications typically super-resolve (increase resolution) either space or time, and joint spatiotemporal models are often designed for a single pair of super-resolution (SR) factors (upscaling spatial and temporal ratio between the low-resolution sequence and the high-resolution sequence), limiting transfer across spatial resolutions and temporal cadences (frame rates). We present a scale-adaptive framework that reuses the same architecture across factors by decomposing spatiotemporal SR into a deterministic prediction of the conditional mean, with attention, and a residual conditional diffusion model, with an optional mass-conservation (same precipitation amount in inputs and outputs) transform to preserve aggregated totals. Assuming that larger SR factors primarily increase underdetermination (hence required context and residual uncertainty) rather than changing the conditional-mean structure, scale adaptivity is achieved by retuning three factor-dependent hyperparameters before retraining: the diffusion noise schedule amplitude beta (larger for larger factors to increase diversity), the temporal context length L (set to maintain comparable attention horizons across cadences) and optionally a third, the mass-conservation function f (tapered to limit the amplification of extremes for large factors). Demonstrated on reanalysis precipitation over France (Comephore), the same architecture spans super-resolution factors from 1 to 25 in space and 1 to 6 in time, yielding a reusable architecture and tuning recipe for joint spatiotemporal super-resolution across scales.