4037 articles
飽和度感知的空間変異型ブラインド画像脱ぼけ
Saturation-Aware Space-Variant Blind Image Deblurring
arXiv:2604.16200v1 Announce Type: new 摘要:本稿では、広動態範囲および低光条件下での脱ぼけにおける飽和ピクセルが提唱する課題に対処するために設計された、新しい飽和度感知的空間変異型ブラインド画像脱ぼけフレームワークを提案する。提案手法は、ボケ強度および飽和度への近接度に基づいて画像を効果的にセグメント化し、事前推定された光拡散関数(Light Spread F...
Original: arXiv:2604.16200v1 Announce Type: new Abstract: This paper presents a novel saturation aware space variant blind image deblurring framework designed to address challenges posed by saturated pixels in...
CVPR2026 NTIRE チャレンジの勝者:並列精製の経路上なセマンティックおよび幾何学的ガイダンスによる画像の陰影除去
Winner of CVPR2026 NTIRE Challenge on Image Shadow Removal: Semantic and Geometric Guidance for Shadow Removal via Cascaded Refinement
arXiv:2604.16177v1 Announce Type: new 要旨: 我々は CVPR2026 NTIRE WSRD+ チャレンジのための 3 段階的な逐次的陰影除去パイプラインを発表する。OmniSR を基にした我々の手法は、陰影除去を逐直接的な改善として取り扱うもので、後段は前段の予測で残された残像アーティファクトを修正する。モデルは RGB 外観と凍結された DINOv2 セマ...
Original: arXiv:2604.16177v1 Announce Type: new Abstract: We present a three-stage progressive shadow-removal pipeline for the CVPR2026 NTIRE WSRD+ challenge. Built on OmniSR, our method treats deshadowing as ...
neuralCAD-Edit: 専門家による多モーダル指示 3D CAD モデル編集のための専門ベンチマーク
neuralCAD-Edit: An Expert Benchmark for Multimodal-Instructed 3D CAD Model Editing
arXiv:2604.16170v1 発表タイプ:新しい 本文: neuralCAD-Edit は、専門家 CAD エンジニアによって収集された 3D CAD モデルの編集のための最初のベンチマークです。以前の研究で用いられていたテキスト条件付けに代わり、私たちは CAD ソフトウェアでプロのデザイナーがモデルと直接操作し、口頭や指差し、描画を行う際に行われた動画を記録することで、現実的な CAD...
Original: arXiv:2604.16170v1 Announce Type: new Abstract: We introduce neuralCAD-Edit, the first benchmark for editing 3D CAD models collected from expert CAD engineers. Instead of text conditioning as in prio...
SWNet: カモフラージュ付き雑草検出のためのクロススペクトral ネットワーク
SWNet: A Cross-Spectral Network for Camouflaged Weed Detection
arXiv:2604.16147v1 Announce Type: new Abstract: 本論文は、高密度農環境におけるカモフラージュ付き雑草の検出に特化して設計された、双模態のエンドツーエンドクロススペクトルネットワークである SWNet を提唱します。植物のカモフラージュは、侵入種が主作物の形態的特徴を模倣する同色混合を特徴とするものであり、従来のコンピュータビジョンシステムにとって重大...
Original: arXiv:2604.16147v1 Announce Type: new Abstract: This paper presents SWNet, a bimodal end-to-end cross-spectral network specifically engineered for the detection of camouflaged weeds in dense agricult...
Motion-Adapter: テキストから複合アクションの生成のための拡散モデルアダプター
Motion-Adapter: A Diffusion Model Adapter for Text-to-Motion Generation of Compound Actions
arXiv:2604.16135v1 Announce Type: new Abstract: 最近の生成運動合成の進展により、多様な入力モードから現実的な人間運動の生成が可能になりました。しかし、複数の同時動作を統合した整合性のある全身体動作(複合アクション)をテキストから生成することは、依然として大きな課題です。本研究では、現在のテキストから運動生成用の拡散モデルに存在する 2 つの主要な限...
Original: arXiv:2604.16135v1 Announce Type: new Abstract: Recent advances in generative motion synthesis have enabled the production of realistic human motions from diverse input modalities. However, synthesiz...
記事から樹冠へ:LLM 専門家による知識駆動型擬似ラベリングを用いた樹木種の分類
From Articles to Canopies: Knowledge-Driven Pseudo-Labelling for Tree Species Classification using LLM Experts
hyperspectral tree species classification is challenging due to limited and imbalanced class labels, spectral mixing (overlapping light signatures from multiple species), and ecological heterogeneity ...
Original: arXiv:2604.16115v1 Announce Type: new Abstract: Hyperspectral tree species classification is challenging due to limited and imbalanced class labels, spectral mixing (overlapping light signatures from...
A Large-Scale Triplet Dataset を用いたコンテキスト上でのトーンスタイル転送へのアプローチ
Towards In-Context Tone Style Transfer with A Large-Scale Triplet Dataset
arXiv:2604.16114v1 Announce Type: new トーンスタイル転送(Tone Style Transfer)は、フォトレタッチにおいて、参考画像のスタイルトーンを与えられたコンテンツ画像に適応させることを目的としています。しかし、スタイル付きグランド・トゥルースを含む高品質な大規模トリプレットデータセットの不足のため、既存の方法は自己教師あり学習や代用目標に頼らざるを...
Original: arXiv:2604.16114v1 Announce Type: new Abstract: Tone style transfer for photo retouching aims to adapt the stylistic tone of the reference image to a given content image. However, the lack of high-qu...
Polyglot: 言語スタイルを保持するマルチリンガル音声駆動顔面アニメーション
Polyglot: Multilingual Style Preserving Speech-Driven Facial Animation
arXiv:2604.16108v1 Announce Type: new 摘要: 音声駆動顔面アニメーション (SDFA) は、映画、ビデオゲーム、および仮想現実などのアプリケーションにより注目を集めています。しかし、既存の多くのモデルは単一言語のデータで訓練されており、現実世界のマルチリンガルシナリオでの効果は制限されています。本研究では、言語が発音、リズム、イントネーション、そして表情に影響...
Original: arXiv:2604.16108v1 Announce Type: new Abstract: Speech-Driven Facial Animation (SDFA) has gained significant attention due to its applications in movies, video games, and virtual reality. However, mo...
DenTab: 本データセット、現実の歯科見積もりに基づいた表認識および視覚 Q&A 用
DenTab: A Dataset for Table Recognition and Visual QA on Real-World Dental Estimates
arXiv:2604.16099v1 発表タイプ: 新しい 摘訳:表は重要な取引および管理情報をコンパクトなレイアウトに凝縮しますが、実用的な抽出にはテキスト認識以上の要件が必要です。システムは構造(行、列、マージセル、ヘッダー)を復元し、項目名、合計、合計など的一般的なキャプチャアーティファクト下での役割を解釈する能力も必要です。既存の多くの表構造認識および TableVQA リソースは、クリー...
Original: arXiv:2604.16099v1 Announce Type: new Abstract: Tables condense key transactional and administrative information into compact layouts, but practical extraction requires more than text recognition: sy...
Stylistic-STORM (ST-STORM): 外観の構文的特性の認識
Stylistic-STORM (ST-STORM) : Perceiving the Semantic Nature of Appearance
arXiv:2604.16086v1 Announce Type: new 摘要:自己教師付け学習(SSL)における主要なパラダイムの一つを、MoCo や DINO が示唆している。このアプローチは、照明や幾何学的変化などの特定の画像変換に対して不感応な特徴を捉えることで、頑健な表現を生み出すことを目指している。対象をその外観とは無関係に認識するという目的がある場合は、この戦略が適している。しかし...
Original: arXiv:2604.16086v1 Announce Type: new Abstract: One of the dominant paradigms in self-supervised learning (SSL), illustrated by MoCo or DINO, aims to produce robust representations by capturing featu...
DINOv3 にて特化型検出器が敗北: 画像検出における単純な基礎モデル基準モデル
DINOv3 Beats Specialized Detectors: A Simple Foundation Model Baseline for Image Forensics
arXiv:2604.16083v1 発表タイプ:新 Abstract: ディープ生成モデルの急速な発展に伴い、現実的な偽画像の入手が容易になりましたが、既存のローカリゼーション手法は複雑な設計を必要とし、まだどの操作タイプや撮像条件下の一般化に苦労しています。DINOv3 に対し LoRA 適応と軽量畳み込みデコーダーを組み合わせ、シンプルかつ強力な基準モデルを示します。CAT-Net プロト...
Original: arXiv:2604.16083v1 Announce Type: new Abstract: With the rapid advancement of deep generative models, realistic fake images have become increasingly accessible, yet existing localization methods rely...
YOLOv12 深層学習モデルを使用した急性骨髄性白血病(AML)の早期検出
Early Detection of Acute Myeloid Leukemia (AML) Using YOLOv12 Deep Learning Model
arXiv:2604.16082v1 発表型:新規 摘要: 急性骨髄性白血病(AML)は最も命を脅かす血液腫瘍の一つであり、その正確な分類は、多種の細胞間の視覚的な類似性のために、考慮され続けるに難解な課題です。本稿は、Yolo v12 深層学習モデルを活用した AML 細胞の多分類問題を解決します。画像分類以前に画像を前処理する際、細胞特性および細胞核特性に基づき、2 つの分割アプローチを実装し...
Original: arXiv:2604.16082v1 Announce Type: new Abstract: Acute Myeloid Leukemia (AML) is one of the most life-threatening type of blood cancers, and its accurate classification is considered and remains a cha...
The Amazing Stability of Flow Matching
arXiv:2604.16079v1 発表 タイプ:新しい 要旨: 深層生成モデルが、高品質かつ多様なサンプルを生成する成功は、しばしば特定のアーキテクチャと大きな学習データセットに起因すると考えられています。本稿では、これらの因子がフローマッチング(Flow Matching)モデルで生成されるサンプルの品質と多様性に与える影響を調査します。意外にも、CelebA-HQ データセットにおける実験...
Original: arXiv:2604.16079v1 Announce Type: new Abstract: The success of deep generative models in generating high-quality and diverse samples is often attributed to particular architectures and large training...
TableSeq: 構造、内容、レイアウトの統一的生成
TableSeq: Unified Generation of Structure, Content, and Layout
arXiv:2604.16070v1 発表タイプ:新規 要旨:TableSeq は、画像のみで動作し、エンドツーエンドである joint table structure recognition(同時構造認識)、content recognition(内容認識)、および cell localization(セル位置検出)のフレームワークです。このモデルは、これらのタスクを単一のスクリプト生成問題と...
Original: arXiv:2604.16070v1 Announce Type: new Abstract: We present TableSeq, an image-only, end-to-end framework for joint table structure recognition, content recognition, and cell localization. The model f...
Chain-of-Thought はマルチモーダル大規模言語モデルの視覚空間推論能力を劣化させる
Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs
arXiv:2604.16060v1 Announce Type: new 抜粋:マルチモーダル推論モデル(MRM)は、Chain-of-Thought(CoT)に基づく思考方式を活用することで、数学的・論理的問題解決の分野を革命化しました。しかし、本稿ではこのパラダイムが汎用的な空間知能に直面する困難さを示します。17 モデルと 13 つの空間ベンチマークを網羅的に評価することで、私たちは Co...
Original: arXiv:2604.16060v1 Announce Type: new Abstract: Multimodal Reasoning Models (MRMs) leveraging Chain-of-Thought (CoT) based thinking have revolutionized mathematical and logical problem-solving. Howev...
目覚め: 多モーダル大言語モデルのための視覚的抽象、変換と構成のためのベンチマーク
Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs
arXiv:2604.16054v1 発表タイプ:新規 要約: 多モーダル大言語モデル (MLLM) は視覚言語ベンチマークにおいて驚くべき進展を遂げましたが、その視覚認知と視空間推論の能力はまだ十分に理解されていません。本研究では、古典的な人間知能テストに着想を得た 8 つの視覚認知タスクに基づく「Mind's Eye」という選択式ベンチマークを提案します。このベンチマークは、新しい「A-R-T...
Original: arXiv:2604.16054v1 Announce Type: new Abstract: Multimodal large language models (MLLMs) have achieved impressive progress on vision language benchmarks, yet their capacity for visual cognitive and v...
拡散確率モデルの SNR-t バイアスを明らかにする
Elucidating the SNR-t Bias of Diffusion Probabilistic Models
arXiv:2604.16044v1 発表タイプ:新規 要約:拡散確率モデルは、広範な生成タスクにおいて顕著な性能を示してきました。しかし、私たちはこれらのモデルがしばしば信号対雑音比ーステップ(SNR-t)バイアスに苦しんでいることを観察しました。このバイアスとは、推論段階において、除噪サンプルの SNR とそれに対応するステップの間に見られる不整合を指します。具体的には、訓練段階ではサンプル...
Original: arXiv:2604.16044v1 Announce Type: new Abstract: Diffusion Probabilistic Models have demonstrated remarkable performance across a wide range of generative tasks. However, we have observed that these m...
頭頸部がんの予後予測における XAI メソッドのランキング付け
Ranking XAI Methods for Head and Neck Cancer Outcome Prediction
頭頸部がん(HNC)患者における予後予測は、個別化治療戦略の選定をサポートする役割を果たします。PET/CT データを応用した最先端人工知能(AI)技術を用いて、HNC 予後予測の性能向上が広く探求されています。しかし、AI の解釈可能性は依然として臨床導入における重要な障壁です。以前の研究が経験的に説明可能 AI(XAI)手法を選定したのに対し、本研究は初めて XAI メソッドの 13 種を 2...
Original: arXiv:2604.16034v1 Announce Type: new Abstract: For head and neck cancer (HNC) patients, prognostic outcome prediction can support personalized treatment strategy selection. Improving prediction perf...
Breakout-picker: Deep Learning による超音波画像ログからの井戸穴ブローアウト特徴解析における誤陽性の削減
Breakout-picker: Reducing false positives in deep learning-based borehole breakout characterization from acoustic image logs
arXiv:2604.16011v1 告知タイプ:新規 概要:ブローアウトとは、井戸壁に生じる応力誘発破片剥離現象であり、超音波画像ログ上では対称な方位を有するペア領域、低振幅、および井戸径の増大を示す特徴を有して識別される。正確なブローアウトの特徴解析は、現地応力解析に不可欠である。近年、時間的かつ労力的に負担の多いブローアウトピッキングのプロセスを自動化するために、ディープラーニングが導入され...
Original: arXiv:2604.16011v1 Announce Type: new Abstract: Borehole breakouts are stress-induced spalling on the borehole wall, which are identifiable in acoustic image logs as paired zones with near-symmetry a...
IA-CLAHE: クリップ制限の適応的な推定による画像適応型 CLAHE
IA-CLAHE: Image-Adaptive Clip Limit Estimation for CLAHE
arXiv:2604.16010v1 発表形式:新 要旨:本稿では、画像適応型コントラスト制限適応ヒストグラム等化 (IA-CLAHE) を提案する。従来の CLAHE は、各種コンピュータビジョンタスクの性能向上および実用的な産業応用における人間の可視性向上のために広く利用されている。CLAHE は、それぞれの局所領域に対してコントラスト制限ヒストグラム等化を適用することで局所コントラストを向上...
Original: arXiv:2604.16010v1 Announce Type: new Abstract: This paper proposes image-adaptive contrast limited adaptive histogram equalization (IA-CLAHE). Conventional CLAHE is widely used to boost the performa...