Back to list
行・列分離型注意ベースの低照度画像・映像向上装置
Row-Column Separated Attention Based Low-Light Image/Video Enhancement
Translated: 2026/3/15 18:02:53
Japanese Translation
arXiv:2602.07428v1 発表形式:新しい
要約:U-Net 構造は、低照度画像・映像向上に広く用いられている。向上された画像は、適切なグローバル情報の誘導がなされていない場合に、大幅な局所的ノイズの発生や詳細の欠損といった結果となる。注意機構は、より効果的にグローバル情報を注視し活用できる。しかし、画像への注意の適用はパラメータ数および計算量を著しく増加させる可能性がある。我々は、向上された U-Net の後に挿入された行・列分離型注意モジュール (RCSA) を提案する。RCSA モジュールの入力は、特徴マップの行および列の平均および最大値であり、この構成はパラメータ数を減らしたまま、グローバル情報を局所情報を導くために利用する。我々は、この手法を低照度映像向上に適用し時間的一貫性を維持するために 2 つの時間損失関数を提案する。LOL、MIT Adobe FiveK 画像データセット、および SDSD ビデオデータセットにおける広範な実験は、我々のアプローチの有効性を示唆している。コードは https://github.com/cq-dong/URCSA に公開されている。
Original Content
arXiv:2602.07428v1 Announce Type: new
Abstract: U-Net structure is widely used for low-light image/video enhancement. The enhanced images result in areas with large local noise and loss of more details without proper guidance for global information. Attention mechanisms can better focus on and use global information. However, attention to images could significantly increase the number of parameters and computations. We propose a Row-Column Separated Attention module (RCSA) inserted after an improved U-Net. The RCSA module's input is the mean and maximum of the row and column of the feature map, which utilizes global information to guide local information with fewer parameters. We propose two temporal loss functions to apply the method to low-light video enhancement and maintain temporal consistency. Extensive experiments on the LOL, MIT Adobe FiveK image, and SDSD video datasets demonstrate the effectiveness of our approach. The code is publicly available at https://github.com/cq-dong/URCSA.