4037 articles

arxiv_cs_cv 2026/4/24

Lightweight Image Super-Resolutionのための Transformer-Progressive Mamba ネットワーク

Transformer-Progressive Mamba Network for Lightweight Image Super-Resolution

arXiv:2511.03232v2 Announce Type: replace 要約: 最近、Mamba に基づいた超解像 (SR) メソッドは、変換器 (Transformer) に基づいた SR アプローチの二次的な計算コストに対抗して、線形計算複雑性とグローバル受信野を同時に捉える能力を示しました。しかし、既存の Mamba に基づいたメソッドは、異なるモデル化スケール間で微細な遷移を...

Original: arXiv:2511.03232v2 Announce Type: replace Abstract: Recently, Mamba-based super-resolution (SR) methods have demonstrated the ability to capture global receptive fields with linear complexity, addres...

arxiv_cs_cv 2026/4/24

PercHead: DINOv2 と SAM 2.1 に基づく、単一画像から 3D ヘア重建および編集を可能にする認識モデル

PercHead: Perceptual Head Model for Single-Image 3D Head Reconstruction & Editing

arXiv:2511.02777v2 発表形式：代替摘要：私たちは、単一画像から 3D ヘア重建および解離型 3D 編集を行うための模型「PercHead」を提案します。これらは、同じ入力に対して複数の合理的な説明が存在するがゆえに本質的に困難なタスクです。私たちのアプローチの核心は、DINOv2 と SAM 2.1 に基づく創新的な認識損失関数にあります。広く採用されている低レベルの損失関数...

Original: arXiv:2511.02777v2 Announce Type: replace Abstract: We present PercHead, a model for single-image 3D head reconstruction and disentangled 3D editing - two tasks that are inherently challenging due to...

arxiv_cs_cv 2026/4/24

When to Trust the Answer: Question-Aligned Semantic Nearest Neighbor Entropy for Safer Surgical VQA

arXiv:2511.01458v2 Announce Type: replace Abstract: Surgery における視覚的質問応答（VQA）システムの導入において、安全性と信頼性は極めて重要です。不正確または曖昧な回答は患者への伤害をもたらす可能性があります。既存の不確実性推定手法、例えばセマンティック・ネーリスト・ニアスタ・エントロピー（SNNE）は、条件付き質問を明示的に考慮してい...

Original: arXiv:2511.01458v2 Announce Type: replace Abstract: Safety and reliability are critical for deploying visual question answering (VQA) systems in surgery, where incorrect or ambiguous responses can ca...

arxiv_cs_cv 2026/4/24

VFM-VAE: 視覚基礎モデルは潜拡散モデルのための優れたトークナイザーにできる

VFM-VAE: Vision Foundation Models Can Be Good Tokenizers for Latent Diffusion Models

arXiv:2510.18457v3 Announce Type: replace 要約：潜拡散モデル（LDM）の性能は、その視覚トークナイザーの品質に決定的に依存しています。最近の研究では、VFM 学習に蒸留を通じて LDM トークナイザーに組み込む方法が検討されましたが、我々は実証的に、このアプローチは元々学習された VFM の表現の頑健性を無言に弱めると発見しました。この論文では、蒸留を回...

Original: arXiv:2510.18457v3 Announce Type: replace Abstract: The performance of Latent Diffusion Models (LDMs) is critically dependent on the quality of their visual tokenizers. While recent works have explor...

arxiv_cs_cv 2026/4/24

Adaptive Patch Sizes による Vision Transformer の高速化

Accelerating Vision Transformers with Adaptive Patch Sizes

arXiv:2510.18091v2 Announce Type: replace 要約: Vision Transformers (ViT) は、内容に関係なく入力画像を均一サイズのパッチに分割し、高解像度の画像では非常に長い入力シーケンス長さをもたらします。われらは、同一画像内で複数の異なるパッチサイズを使用することでこれを解決する、Adaptive Patch Transformers (A...

Original: arXiv:2510.18091v2 Announce Type: replace Abstract: Vision Transformers (ViTs) partition input images into uniformly sized patches regardless of their content, resulting in long input sequence length...

arxiv_cs_cv 2026/4/24

Flow Matching を用いた条件付き MRI-CT および CBCT-CT イメージ合成

Flow Matching for Conditional MRI-CT and CBCT-CT Image Synthesis

arXiv:2510.04823v2 Announce Type: replace 摘要：MRI や CBCT から合成 CT（sCT）を生成することは、MRI 単独治療および CBCT に基づく適応放射線治療を可能にし、治療精度を向上させながら患者への放射線被曝を減少させる点で決定的な役割を果たしています。この課題に対処するために、我々は最近の高品質画像生成における FM の効率性を示した研究に...

Original: arXiv:2510.04823v2 Announce Type: replace Abstract: Generating synthetic CT (sCT) from MRI or CBCT plays a crucial role in enabling MRI-only and CBCT-based adaptive radiotherapy, improving treatment ...

arxiv_cs_cv 2026/4/24

腹膜炎の診断における federated learning を活用した手術視覚: FedSurg EndoVis 2024 チャレンジの結果

Federated Learning for Surgical Vision in Appendicitis Classification: Results of the FedSurg EndoVis 2024 Challenge

arXiv:2510.04772v2 Announce Type: replace Abstract: 汎用性のある手術 AI を開発するには多施設データが必要ですが、患者プライバシーの制約により直接データ共有が不可能であるため、Federated Learning (FL) は自然な候補ソリューションとなります。FL を複雑な時間空間手術動画データに適用することはまだ十分にベンチマーク化されてい...

Original: arXiv:2510.04772v2 Announce Type: replace Abstract: Developing generalizable surgical AI requires multi-institutional data, yet patient privacy constraints preclude direct data sharing, making Federa...

arxiv_cs_cv 2026/4/24

Geo-R1: 少ショット地上参照表現の理解を強化学習で改善する

Geo-R1: Improving Few-Shot Geospatial Referring Expression Understanding with Reinforcement Fine-Tuning

arXiv:2509.21976v3 Announce Type: replace Abstract: リモートセンシングにおける参照表現の理解は、複雑なオブジェクトと文脈の関係性について論理的思考を要するため、独自の課題をもたらします。マルチモーダル大規模言語モデルに対する有监督微调（SFT）は大量のラベル付きデータセットで強力な性能を発揮しますが、データが少ないシナリオでは困難に陥り、一般化能...

Original: arXiv:2509.21976v3 Announce Type: replace Abstract: Referring expression understanding in remote sensing poses unique challenges, as it requires reasoning over complex object-context relationships. W...

arxiv_cs_cv 2026/4/24

TV サブグラデント導向多ソースフュージョンによる双カメラ CASSI システムにおける分光イメージング

TV Subgradient-Guided Multi-Source Fusion for Spectral Imaging in Dual-Camera CASSI Systems

arXiv:2509.10897v2 発表タイプ：置換要約：分光イメージングにおける分光、空間、時間分解能のバランスは重要な課題です。双カメラ符号化アパーチャショット分光イメージング（DC-CASSI）システムはこれらのトレードオフを緩和しますが、高い圧縮率のためには厳しく欠損した反復問題を被ります。既存の手法はシーン固有の調整や、対になっているトレーニングデータの過度な依存に制限されています。...

Original: arXiv:2509.10897v2 Announce Type: replace Abstract: Balancing spectral, spatial, and temporal resolutions is a key challenge in spectral imaging. The Dual-Camera Coded Aperture Snapshot Spectral Imag...

arxiv_cs_cv 2026/4/24

FunduSegmenter：RETFound 基礎モデルを活用した網膜眼底画像における網膜盤と視杯の同時セグメンテーション

FunduSegmenter: Leveraging the RETFound Foundation Model for Joint Optic Disc and Optic Cup Segmentation in Retinal Fundus Images

arXiv:2508.11354v3 Announce Type: replace 目的：本研究では、網膜眼底画像における網膜盤 (OD) と視杯 (OC) の同時セグメンテーションを初めて実現するための RETFound の適応モデルを紹介する。RETFound は、眼底カメラ画像および光学干渉断層計 (OCT) 画像の開発に特化した、疾患診断における有望な性能を示す有名人形モデルである。 ...

Original: arXiv:2508.11354v3 Announce Type: replace Abstract: Purpose: This study introduces the first adaptation of RETFound for joint optic disc (OD) and optic cup (OC) segmentation. RETFound is a well-known...

arxiv_cs_cv 2026/4/24

反事実セグメンテーション推理：ピクセルアンカリングの幻覚を診断し、緩和する

Counterfactual Segmentation Reasoning: Diagnosing and Mitigating Pixel-Grounding Hallucination

arXiv:2506.21546v4 Announce Type: replace 摘要：セグメンテーション visión-lenguaje モデル（VLM）は、アノテーションされた視覚理解を劇的に向上させてきましたが、依然としてピクセルアンカリングの幻覚（誤った対象や存在しない対象のためのマスクを生成すること）に陥っています。既存の評価は、テキストまたはラベルに基づく擾乱に完全に依存しており、予...

Original: arXiv:2506.21546v4 Announce Type: replace Abstract: Segmentation Vision-Language Models (VLMs) have significantly advanced grounded visual understanding, yet they remain prone to pixel-grounding hall...

arxiv_cs_cv 2026/4/24

LiveVLM: ストリーム指向型 KV Cache と検索による効率的なオンライナビデオリズム理解

LiveVLM: Efficient Online Video Understanding via Streaming-Oriented KV Cache and Retrieval

arXiv:2505.15269v2 発表形式: 代替要旨: 最近のビデオ大規模言語モデル（Video LLMs）の進展により、模型が長時間のビデオを処理し、卓越した性能を発揮できるようになりました。しかし、キー - バリュー（KV）キャッシュは時間とともに線形拡大し、顕著なメモリオーバーヘッドと応答遅延をもたらします。これは、Deepseek サービス、自律走行車、ロボットなどの各種リアルワー...

Original: arXiv:2505.15269v2 Announce Type: replace Abstract: Recent developments in Video Large Language Models (Video LLMs) have enabled models to process hour-long videos and exhibit exceptional performance...

arxiv_cs_cv 2026/4/24

APCoTTA: 空中 LiDAR パラメータを継続的テスト時適応によるセマンティック分割の最適化

APCoTTA: Continual Test-Time Adaptation for Semantic Segmentation of Airborne LiDAR Point Clouds

空中 LiDAR スキャン (ALS) のパラメータは、大型 3D シーンの理解のための基本的な課題です。現実的なシナリオに配備された固定されたモデルは、環境とセンサーの継続的な変化によって引き起こされるドメインシフトのために性能が低下することがあります。継続的なテスト時適応 (CTTA) は、進化の非ラベル付きドメインに適応することを可能にし、しかし、その応用はまだ未探索されており、ベンチマーク...

Original: arXiv:2505.09971v3 Announce Type: replace Abstract: Airborne laser scanning (ALS) point cloud semantic segmentation is a fundamental task for large-scale 3D scene understanding. Fixed models deployed...

arxiv_cs_cv 2026/4/24

フレームを超えて：透視動画から 360°パノラマ動画を生成する

Beyond the Frame: Generating 360 Panoramic Videos from Perspective Videos

arXiv:2504.07940v3 Announce Type: replace 摘要：360°動画は、我々の動的視覚的世界を表現する有望なメディアとして台頭しました。標準的なカメラの「トンネル視」に比べ、その境界のない視野は周囲をより完全な視点で捉えます。既存の動画モデルは標準的な動画の生成を得意といますが、フルパノラマ動画の生成についてはまだ課題が残っています。この論文では、透視動画をインプ...

Original: arXiv:2504.07940v3 Announce Type: replace Abstract: 360{\deg} videos have emerged as a promising medium to represent our dynamic visual world. Compared to the "tunnel vision" of standard cameras, the...

arxiv_cs_cv 2026/4/24

骨格認識に基づくテキスト・視覚融合と二視点プロンプトによる脊髄骨の微細分類セグメンテーション

Anatomy-Aware Text-Visual Fusion with Dual-Perspective Prompts for Fine-Grained Lumbar Spine Segmentation

arXiv:2504.03476v2 発表タイプ：置き換え概要: 正確な脊髄骨セグメンテーションは、脊椎疾患の診断にとって不可欠です。既存の手法は、正確な診断に必要な微細なディテールを欠く粗粒度セグメンテーション戦略を用いており、また視覚のみを頼りにする点から、解剖学的意味を捉えることに難しさを抱えています。これにより、分類エラーやセグメンテーションディテールの低下が生じています。これらの限界...

Original: arXiv:2504.03476v2 Announce Type: replace Abstract: Accurate lumbar spine segmentation is crucial for diagnosing spinal disorders. Existing methods typically use coarse-grained segmentation strategie...

arxiv_cs_cv 2026/4/24

解釈可能な神経発達障害診断のための情報ビンテルネック応用による非均質グラフ学習

Information Bottleneck-Guided Heterogeneous Graph Learning for Interpretable Neurodevelopmental Disorder Diagnosis

arXiv:2502.20769v3 Announce Type: replace 要約：神経発達障害（NDD）の診断における解釈可能なモデルの開発は、多モダリティ神経画像データをエンコード、デコード、統合する際に大きな課題を提起しています。既存の多くの機械学習アプローチが脳ネットワーク解析において期待を寄せつつも、機能磁気共鳴画像法（fMRI）データから意味のあるバイオマーカーを抽出し、画像特...

Original: arXiv:2502.20769v3 Announce Type: replace Abstract: Developing interpretable models for neurodevelopmental disorders (NDDs) diagnosis presents significant challenges in effectively encoding, decoding...

arxiv_cs_cv 2026/4/24

困難な照明条件下における未来の火星ヘリコプターのための幾何学支援視覚ベースの定位

Geometry-aided Vision-based Localization of Future Mars Helicopters in Challenging Illumination Conditions

arXiv:2502.09795v3 Announce Type: replace **Abstract:** 火星における航空資産による惑星探査は、画期的な科学的発見を可能にします。NASA の火星ヘリコプター「イングニシティ」が火星大気での飛行が可能であることを証明しましたが、将来の火星旋回機は長距離飛行のための高度なナビゲーション能力を必要とします。そのうちの一つの重要な能力は、飛行中に船...

Original: arXiv:2502.09795v3 Announce Type: replace Abstract: Planetary exploration using aerial assets has the potential for unprecedented scientific discoveries on Mars. While NASA's Mars helicopter Ingenuit...

arxiv_cs_cv 2026/4/24

DepthMaster: ディフューजनモデルの統制による単眼depth推定の改善

DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

arXiv:2501.02576v2 Announce Type: replace Abstract：ディフュージ・デノイジングパラダイム内における単眼depth推定は驚異的な一般化能力を示しますが、推論速度が低いという課題を抱えています。最近の手法は推論効率を改善しつつ同等の性能を維持する一ステップ確定的パラダイムを採用していますが、生成特徴と識別特徴との間のギャップを無視しており、非最適の結果...

Original: arXiv:2501.02576v2 Announce Type: replace Abstract: Monocular depth estimation within the diffusion-denoising paradigm demonstrates impressive generalization ability but suffers from low inference sp...

arxiv_cs_cv 2026/4/24

SCASeg: 高速なセマンティックセグメンテーションのための Strip Cross-Attention

SCASeg: Strip Cross-Attention for Efficient Semantic Segmentation

arXiv:2411.17061v2 発表タイプ：置換摘要：Vision Transformer (ViT) はコンピュータビジョンにおいて顕著な成功を収め、そのバリエーションはセマンティックセグメンテーションを含む多様な下流タスクで広く検証されています。しかし、汎用的な可視性エンコーダとして ViT バックボーンは、常にタスクデコーダーの特定の要件を完全に満たしていないため、効率的なセマンティ...

Original: arXiv:2411.17061v2 Announce Type: replace Abstract: The Vision Transformer (ViT) has achieved notable success in computer vision, with its variants widely validated across various downstream tasks, i...

arxiv_cs_cv 2026/4/24

VidHal: VLLM における時間的な幻覚をベンチマークする

VidHal: Benchmarking Temporal Hallucinations in Vision LLMs

arXiv:2411.16771v3 Announce Type: replace 要約：視覚大規模言語モデル (VLLMs) は、広く幻覚の発生に脆弱であると認識されています。既存の研究は主に画像入力に基づいているだけで、ビデオベースの幻覚への探索は限定的であり、さらに現在の評価手法は、ビデオの豊かな空間・時間動的性質によって悪化しやすい生成応答における繊細なエラーを捉えていません。この課題に...

Original: arXiv:2411.16771v3 Announce Type: replace Abstract: Vision Large Language Models (VLLMs) are widely acknowledged to be prone to hallucinations. Existing research addressing this problem has primarily...