4037 articles
非線形拡散フィルタを使用したセグメンテーションタスクの前処理
Pre-process for segmentation task with nonlinear diffusion filters
arXiv:2604.21422v1 Announce Type: new 摘要:本稿では、セグメンテーション技術の前処理として、不連続な画像を取得するために非線形拡散フィルタを使用するケースについて議論します。 まず、拡散フィルタの設計条件を提供するため、非線形拡散方程式の内在的構成を提示します。 この理論的枠組みに基づき、我々は非線形拡散技術から導かれ、逆拡散に関連する新たな一連の拡散率を...
Original: arXiv:2604.21422v1 Announce Type: new Abstract: This paper deals with the case of using nonlinear diffusion filters to obtain piecewise constant images as a previous process for segmentation techniqu...
S1-VL: 科学的マルチモーダル推論モデル「思考と画像」
S1-VL: Scientific Multimodal Reasoning Model with Thinking-with-Images
arXiv:2604.21409v1 Announce Type: new Abstract: 私たちは、科学分野向けのマルチモーダル推論モデル「S1-VL」を提示する。このモデルは、2 つの補完的な推論パラダイムをネイティブにサポートしている:1 つ目は「科学的推論」であり、構造化された Chain-of-Thought に依存している。もう 1 つ目は「思考と画像」であり、推論中に Pytho...
Original: arXiv:2604.21409v1 Announce Type: new Abstract: We present S1-VL, a multimodal reasoning model for scientific domains that natively supports two complementary reasoning paradigms: Scientific Reasonin...
YOGO: 3D ガウススプラッティングにおける超高密度シーンの制御可能なリソース配分
You Only Gaussian Once: Controllable 3D Gaussian Splatting for Ultra-Densely Sampled Scenes
arXiv:2604.21400v1 Announce Type: new\n摘 要:3D ガウススプラッティング(3DGS)はニューラルレンダリングを革命化しましたが、既存の手法はほとんどが研究プロトタイプであり、本格的なデプロイには不適切です。私たちは、現実世界の応用を妨げる重要な「産業 - 学術ギャップ」を特定しました。このギャップを埋めるため、私たちは YOGO(You Only Gaus...
Original: arXiv:2604.21400v1 Announce Type: new Abstract: 3D Gaussian Splatting (3DGS) has revolutionized neural rendering, yet existing methods remain predominantly research prototypes ill-suited for producti...
VG-CoT: 信頼性の高い視覚推論に向けて、視覚根拠に即した Chain-of-Thought
VG-CoT: Towards Trustworthy Visual Reasoning via Grounded Chain-of-Thought
arXiv:2604.21396v1 発表タイプ:新規 要約: 大規模なビジョン・言語モデル (LVLMs) の進歩は、実際の視覚的証拠に忠実かつ精度の高い局所的な領域に基づく推論を必要とします。しかし、既存のデータセットは手動アノテーションの大量化や、多段階の推論と対応する画像領域との明示的な整合性の欠如という限界に直面しており、これはモデルの信頼性を評価する制約となります。これらの課題に対処す...
Original: arXiv:2604.21396v1 Announce Type: new Abstract: The advancement of Large Vision-Language Models (LVLMs) requires precise local region-based reasoning that faithfully grounds the model's logic in actu...
EdgeFormer: 点群における局所パッチベースのエッジ検出トランフォーマー
EdgeFormer: local patch-based edge detection transformer on point clouds
arXiv:2604.21387v1 Announce Type: new Abstract: 3D ポイントクラウド上のエッジ点是 3D 幾何学的特性と表面特性を明確に伝えるものであり、そのため、エッジ検出は多くのビジョンアプリケーションにおいて高い産業的および商業的要望に応えて広く使用されています。しかし、細かい粒度的なエッジ特征是一般的に密集して配置されているか、あるいは小規模な表面勾配を...
Original: arXiv:2604.21387v1 Announce Type: new Abstract: Edge points on 3D point clouds can clearly convey 3D geometry and surface characteristics, therefore, edge detection is widely used in many vision appl...
KD-CVG: クリエイティブな動画生成のための知識駆動型アプローチ
KD-CVG: A Knowledge-Driven Approach for Creative Video Generation
arXiv:2604.21362v1 Announce Type: new 要約: クリエイティブ生成(CG)は、生成モデルを活用して製品の機能を強調する広告コンテンツを自動的に生成し、近頃の研究において重要な課題となっており、多くの取り組みが行われています。しかしながら、CG は大きく進展したにもかかわらず、多くの努力が広告テキストと画像の生成に集中しており、クリエイティブな動画生成(CVG)は...
Original: arXiv:2604.21362v1 Announce Type: new Abstract: Creative Generation (CG) leverages generative models to automatically produce advertising content that highlights product features, and it has been a s...
ビジョン・ラングェージモデルにおけるプロトタイプベースのテストタイム適応
Prototype-Based Test-Time Adaptation of Vision-Language Models
arXiv:2604.21360v1 Announce Type: new 要約:テストタイム適応(TTA)は、事前トレーニングとテストデータの分布ギャップを解消するためにビジョン・ラングェージモデル(VLM)に有望なパラダイムとして台頭しました。最近の研究は、カッシュベースの設計に依存するバックプロパゲーションフリーな TTA メソッドに焦点を当ててきましたが、これらは 2 つの主要な限界を伴い...
Original: arXiv:2604.21360v1 Announce Type: new Abstract: Test-time adaptation (TTA) has emerged as a promising paradigm for vision-language models (VLMs) to bridge the distribution gap between pre-training an...
SparseGF: コンテキスト圧縮付き高所感知型スパース分割フレームワークによる、都市景観から自然景観までの頑健な地上分類
SparseGF: A Height-Aware Sparse Segmentation Framework with Context Compression for Robust Ground Filtering Across Urban to Natural Scenes
arXiv:2604.21356v1 発表タイプ:新作 要約:航空レーザースキャニング(ALS)データから導き出された高品質なデジタル地形モデルは、多種多様な地理空間解析において不可欠であり、その生成には点群を異なる景観において地上と地上以外の部分へ分離するための頑健な地上分類(GF)が通常使用されています。現在の深層学習に基づく GF メソッドは、特に特定の困難な地形において印象的な性能を示し...
Original: arXiv:2604.21356v1 Announce Type: new Abstract: High-quality digital terrain models derived from airborne laser scanning (ALS) data are essential for a wide range of geospatial analyses, and their ge...
Trust-SSL: 不確かさ感応的加減剰余選択不変性による堅牢な空中画像自己教師付学習
Trust-SSL: Additive-Residual Selective Invariance for Robust Aerial Self-Supervised Learning
arXiv:2604.21349v1 発表タイプ:新 要旨:自己教師付学習(SSL)は、空中画像における表現学習の標準的な手法である。既存の手法は増強された視覚点間の不変性を強制しており、増強が概念的な内容を保ったままの状況では良好に機能する。しかし、空中画像は霧、運動ぼけ、雨、および遮蔽によって、重要な証拠を除去する頻繁な劣化に晒される。クリーンな視覚点と重く劣化した視覚点間の整合性を強制する...
Original: arXiv:2604.21349v1 Announce Type: new Abstract: Self-supervised learning (SSL) is a standard approach for representation learning in aerial imagery. Existing methods enforce invariance between augmen...
潜伏性ノイズ除去が大型マルチモーダルモデルにおける視覚的整合性を向上させる
Latent Denoising Improves Visual Alignment in Large Multimodal Models
arXiv:2604.21343v1 Announce Type: new 要旨:LLaVA などの大型マルチモーダルモデル(LMM)は、通常、自己回帰的な言語モデル化の目標でトレーニングされており、視覚トークンには間接的な監督のみが提供されます。これにより、内部視覚表現は弱くなり、分布シフト下では脆い動作を示す傾向があります。最近、高品質な視覚トークナイザーを学習するために latent den...
Original: arXiv:2604.21343v1 Announce Type: new Abstract: Large Multimodal Models (LMMs) such as LLaVA are typically trained with an autoregressive language modeling objective, providing only indirect supervis...
教師指導によるスパース視覚混合専門家モデルのルティング
Teacher-Guided Routing for Sparse Vision Mixture-of-Experts
arXiv:2604.21330v1 Announce Type: new 要旨: 最近のディープラーニングの進歩は、ますます規模の大きなモデルによって推進されてきたが、これにより生じた計算コストが決定的なボトルネックとなっています。スパース混合専門家モデル(MoE)は、各入力に対して非常に小さな専門家サブセットのみをアクティブにし、推論速度を犠牲せずに高い拡張性を達成することで、これを有効に解決...
Original: arXiv:2604.21330v1 Announce Type: new Abstract: Recent progress in deep learning has been driven by increasingly large-scale models, but the resulting computational cost has become a critical bottlen...
MiMIC: ユニバーサルマルチモーダル検索における可視性モーダル性崩壊の抑制と、意味乖離を回避する試み
MiMIC: Mitigating Visual Modality Collapse in Universal Multimodal Retrieval While Avoiding Semantic Misalignment
arXiv:2604.21326v1 Announce Type: new 摘要:ユニバーサルマルチモーダル検索(UMR)は、異なる可視性モード(例:視覚的・テキスト)を共有埋め込み空間にマッピングし、マルチモーダル検索を行うことを目的としています。既存の UMR モデルは、Marvel(視覚特性を言語モデル空間へ投射してテキストモーダルと統合する早期融合法)や UniVL-DR(別々のエンコー...
Original: arXiv:2604.21326v1 Announce Type: new Abstract: Universal Multimodal Retrieval (UMR) aims to map different modalities (e.g., visual and textual) into a shared embedding space for multi-modal retrieva...
Temporal Prototyping and Hierarchical Alignment for Unsupervised Video-based Visible-Infrared Person Re-Identification
arXiv:2604.21324v1 Announce Type: new Abstract: Visible-infrared person re-identification (VI-ReID) enables cross-modality identity matching for all-day surveillance, yet existing methods predominantl...
Original: arXiv:2604.21324v1 Announce Type: new Abstract: Visible-infrared person re-identification (VI-ReID) enables cross-modality identity matching for all-day surveillance, yet existing methods predominant...
FryNet:非破壊的なフライ油酸化評価のための双 Stream 対抗学習融合
FryNet: Dual-Stream Adversarial Fusion for Non-Destructive Frying Oil Oxidation Assessment
arXiv:2604.21321v1 発表タイプ:新規 要旨:フライ油の劣化モニタリングは食品安全において不可欠であるが、現在の慣行は空間情報を提供せず、リアルタイム使用に不適な破壊的な湿式化学解析に依存している。我々は、熱画像に基づく点検における根本的な障壁である、カメラの指紋ショートカット(モデルが酸化化学ではなく、センサー固有のノイズや熱バイアスを暗記して学習し、ビデオディスジェント評価では...
Original: arXiv:2604.21321v1 Announce Type: new Abstract: Monitoring frying oil degradation is critical for food safety, yet current practice relies on destructive wet-chemistry assays that provide no spatial ...
PLAS-Net: UAV ベースのビーチ汚染監視におけるピクセル単位の領域セグメンテーション
PLAS-Net: Pixel-Level Area Segmentation for UAV-Based Beach Litter Monitoring
arXiv:2604.21313v1 発表タイプ:新規 要約:海洋ゴミに関する信用可能な生態系リスク評価のために、ビーチゴミの物理的露出面積の正確な定量は、単なるアイテム数计数よりも不可欠です。しかし、自動化された UAV ベースの監視は主に境界ボックス検出に依存しており、これは不規則なゴミオブジェクトの平面面積を系統的に過大評価します。この幾何学的制限に対処するために、われわれは海岸ゴミの物理...
Original: arXiv:2604.21313v1 Announce Type: new Abstract: Accurate quantification of the physical exposure area of beach litter, rather than simple item counts, is essential for credible ecological risk assess...
NTIRE 2026 遠隔計測赤外線画像超解像度における最初の挑戦:ベンチマーク結果と手法概要
The First Challenge on Remote Sensing Infrared Image Super-Resolution at NTIRE 2026: Benchmark Results and Method Overview
arXiv:2604.21312v1 Announce Type: new 本稿は、NTIRE 2026 の関連課題の一つである「遠隔計測赤外線画像超解像度(x4)挑戦(The First Challenge on Remote Sensing Infrared Image Super-Resolution at NTIRE 2026)」を提示します。この挑戦の目的は、bicubic downsa...
Original: arXiv:2604.21312v1 Announce Type: new Abstract: This paper presents the NTIRE 2026 Remote Sensing Infrared Image Super-Resolution (x4) Challenge, one of the associated challenges of NTIRE 2026. The c...
解読可能な Vision Transformer フレームワークによる自動脳腫瘍分類
an interpretable vision transformer framework for automated brain tumor classification
arXiv:2604.21311v1 発表タイプ:新規 要約:脳腫瘍は患者の生存率と直接相関する最も重要な神経学的疾患の一つです。磁気共鳴断層撮影(MRI)スキャンの手動解析は時間的に非効率的であり、観察者間のばらつきが存在し、専門家の高度な専門知識を要します。本稿では、7,023 件の MRI 画像から脳腫瘍、髄膜腫、下垂体腫瘍、健康な脳組織の 4 つのクラスを区別する、自動化された深層学習フレ...
Original: arXiv:2604.21311v1 Announce Type: new Abstract: Brain tumors represent one of the most critical neurological conditions, where early and accurate diagnosis is directly correlated with patient surviva...
制御可能な人間中心型動画生成における合成データ拡張の役割の探求
Exploring the Role of Synthetic Data Augmentation in Controllable Human-Centric Video Generation
arXiv:2604.21291v1 Announce Type: new Abstract: 制御可能な人間動画生成は、明示的に指導された動きと外見を持つリアリズムの高い人間の動画を生成することを目的としており、デジタルヒューマンの基盤、アニメーション、そしてエンボディメント AI の基礎となっています。しかし、大規模で多様な、かつプライバシーに配慮された人間動画データセットの希少さは、特に珍し...
Original: arXiv:2604.21291v1 Announce Type: new Abstract: Controllable human video generation aims to produce realistic videos of humans with explicitly guided motions and appearances,serving as a foundation f...
GraphLeap: グラフ構築と畳み込みの解離による FPGA 上のビジョン GNN 加速
GraphLeap: Decoupling Graph Construction and Convolution for Vision GNN Acceleration on FPGA
arXiv:2604.21290v1 Announce Type: new 摘要:ビジョングラフニューラルネットワーク(ViG)は、画像をパッチトークンのグラフとして表現し、適応的で特徴指向的な近傍を提供します。固定グリッドバイアスを持つ CNN や、グローバルトークン相互作用を持つビジョントランスフォーマーとは異なり、ViG は動的なグラフ畳み込みに基づいています。各層で、現在のパッチ特徴に基づ...
Original: arXiv:2604.21290v1 Announce Type: new Abstract: Vision Graph Neural Networks (ViGs) represent an image as a graph of patch tokens, enabling adaptive, feature-driven neighborhoods. Unlike CNNs with fi...
AttDiff-GAN: 混合ディフュージョン-GAN フレームワークを用いた顔属性編集
AttDiff-GAN: A Hybrid Diffusion-GAN Framework for Facial Attribute Editing
arXiv:2604.21289v1 Announce Type: new 摘要:顔属性編集は、ターゲット属性のみを変更し、属性に関連のないコンテンツや全体の画像忠実度を維持する目的で行われます。既存の GAN ベース手法は制御性が優れているものの、スタイルコードと属性意味の間の整合性が弱く、課題を抱えています。一方、ディフューションベース手法は高实写性の画像生成が可能ですが、異なる属性間の意味方...
Original: arXiv:2604.21289v1 Announce Type: new Abstract: Facial attribute editing aims to modify target attributes while preserving attribute-irrelevant content and overall image fidelity. Existing GAN-based ...