Back to list
arxiv_cs_cv 2026年2月10日

MedVSR: クロス状態空間伝播を用いた医療ビデオスーパー・レゾリューション

MedVSR: Medical Video Super-Resolution with Cross State-Space Propagation

Translated: 2026/3/15 13:02:42
medical-video-super-resolutioncross-state-space-propagationvideo-super-resolutiondeep-learningmedical-imaging

Japanese Translation

arXiv:2509.21265v2 Announce Type: replace 要旨: 高解像度(HR)医療動画は正確な診断に不可欠ですが、ハードウェアの制限や生理学的制約により取得が困難です。臨床的に収集された低解像度(LR)医療動画には、ビデオスーパー・レゾリューション(VSR)モデルが抱える独自の課題があり、それはカメラのブレ、ノイズ、および急激なフレーム遷移などが含まれ、これらは大きな光流量エラーと整合性問題を引き起こします。また、組織や臓器は連続的かつ繊細な構造を示しますが、現在の VSR モデルはアーティファクトや歪んだ特徴を導入しやすく、医師を誤解させる可能性があります。この課題に対処するため、我々は MedVSR という医療 VSR に特化したフレームワークを提案しました。それは、状態空間モデル内で遠方のフレームを制御行列として投影することで、不正確な整合性を解消するクロス状態空間伝播(CSSP)を最初に取り入れています。これにより、一貫性があり情報豊富な特徴を選択的に近隣フレームに伝達し、効果的な整合性が実現されます。さらに、我々は組織構造を強化しアーティファクトを削減するインナー状態空間再構築(ISSR)モジュールを設計し、同時長期空間特徴学習と大核短距離情報集約を用います。食道鏡や白内障手術などの多様な医療シナリオにおける 4 つのデータセットでの実験が示すように、MedVSR は既存の VSR モデルと比較して、再建性能と効率的な両面で大幅に優れています。コードは https://github.com/CUHK-AIM-Group/MedVSR に公開されています。

Original Content

arXiv:2509.21265v2 Announce Type: replace Abstract: High-resolution (HR) medical videos are vital for accurate diagnosis, yet are hard to acquire due to hardware limitations and physiological constraints. Clinically, the collected low-resolution (LR) medical videos present unique challenges for video super-resolution (VSR) models, including camera shake, noise, and abrupt frame transitions, which result in significant optical flow errors and alignment difficulties. Additionally, tissues and organs exhibit continuous and nuanced structures, but current VSR models are prone to introducing artifacts and distorted features that can mislead doctors. To this end, we propose MedVSR, a tailored framework for medical VSR. It first employs Cross State-Space Propagation (CSSP) to address the imprecise alignment by projecting distant frames as control matrices within state-space models, enabling the selective propagation of consistent and informative features to neighboring frames for effective alignment. Moreover, we design an Inner State-Space Reconstruction (ISSR) module that enhances tissue structures and reduces artifacts with joint long-range spatial feature learning and large-kernel short-range information aggregation. Experiments across four datasets in diverse medical scenarios, including endoscopy and cataract surgeries, show that MedVSR significantly outperforms existing VSR models in reconstruction performance and efficiency. Code released at https://github.com/CUHK-AIM-Group/MedVSR.