4037 articles
MMGait: モーダル融合型歩行認識のための研究
MMGait: Towards Multi-Modal Gait Recognition
arXiv:2604.15979v1 Announce Type: new Abstract: 歩行認識は、ユーザーの協力を不要にして遠距離から個人を識別するための強力な生体認証技術として台頭しました。既存の多くの方法は RGB 由来のモダリティに主要な焦点を当てており、実世界の多モダリティ共同処理やクロスモダリティ検索が必要なシナリオにおいては不十分です。これらの課題に対処するため、私々は 5 ...
Original: arXiv:2604.15979v1 Announce Type: new Abstract: Gait recognition has emerged as a powerful biometric technique for identifying individuals at a distance without requiring user cooperation. Most exist...
コンペティションからコウペティションへ:テキスト誘導によるコウペティティブなトレーニングフリー画像編集
From Competition to Coopetition: Coopetitive Training-Free Image Editing Based on Text Guidance
arXiv:2604.15948v1 Announce Type: new Abstract: テキスト誘導画像編集は、現代のマルチメディアコンテンツ作成において重要な課題として、トレーニングフリー手法の進展により、追加の最適化が不要という画期的な進歩を遂げています。近年の進展にもかかわらず、既存の手法は、編集ブランチと復元ブランチがそれぞれ異なる目的関数によって独立して駆動され、ターゲットプロン...
Original: arXiv:2604.15948v1 Announce Type: new Abstract: Text-guided image editing, a pivotal task in modern multimedia content creation, has seen remarkable progress with training-free methods that eliminate...
SENSE:ステレオ OpEN Vocabulary SEManantic Segmentation
SENSE: Stereo OpEN Vocabulary SEmantic Segmentation
arXiv:2604.15946v1 発表タイプ:new 要約:オープンバリュー Semantic Segmentation は、固定されたクラスセットを超えるオブジェクトまたは画像領域のセグメンテーションを可能にし、動的な環境における柔軟性を提供します。しかし、既存の手法は単一眼画像に依存しており、特にOcclusionおよびオブジェクトの境界近くでは空間的な精度が低いという課題があります。当社...
Original: arXiv:2604.15946v1 Announce Type: new Abstract: Open-vocabulary semantic segmentation enables models to segment objects or image regions beyond fixed class sets, offering flexibility in dynamic envir...
Neural Gabor Splatting: 高周波表面再構築を向上させるニューラル Gabor 付加の 3D ガウス Splatting
Neural Gabor Splatting: Enhanced Gaussian Splatting with Neural Gabor for High-frequency Surface Reconstruction
arXiv:2604.15941v1 Announce Type: new Abstract: 近年、3D ガウス Splatting(3DGS)は、3D 再構築およびノベルビューシネシスにおいて強力なアプローチとして急速に出現しました。ガウスプリミティブの明示的な表現は、高速トレーニング、リアルタイムレンダリング、編集や表面再構築などの便利なポストプロセシングを可能にします。しかし、3DGS ...
Original: arXiv:2604.15941v1 Announce Type: new Abstract: Recent years have witnessed the rapid emergence of 3D Gaussian splatting (3DGS) as a powerful approach for 3D reconstruction and novel view synthesis. ...
適応的タスク再定義とエージェント実行を用いた画像編集の容易化
Making Image Editing Easier via Adaptive Task Reformulation with Agentic Executions
arXiv:2604.15917v1 発表タイプ: 新 要旨: 指示による画像編集は、最近の生成モデルの進展により著しく向上したが、依然として多数の目に見えた単純なケースで信頼性の結果をもたらさないままである。我々は、これらの失敗の多くはモデルの容量不足ではなく、小さすぎる対象、明示されていない空間関係、または規定されていない指示を伴うように不適切に設定された編集タスクから生じていることを観察した...
Original: arXiv:2604.15917v1 Announce Type: new Abstract: Instruction guided image editing has advanced substantially with recent generative models, yet it still fails to produce reliable results across many s...
効率的な Video Diffusion モデル:進展と課題
Efficient Video Diffusion Models: Advancements and Challenges
arXiv:2604.15911v1 Announce Type: new 要約:Video diffusion モデルは、高忠実度生成動画合成において急速に支配的なパラダイムに成長しましたが、その実用的展開は推論コストの激しい制約に留まっています。画像生成と比較して、動画合成は空間・時間トークンの増大と反復デノイズを通じて計算を累乗的に複雑化させ、現実世界の運用において注意とメモリトラフィック...
Original: arXiv:2604.15911v1 Announce Type: new Abstract: Video diffusion models have rapidly become the dominant paradigm for high-fidelity generative video synthesis, but their practical deployment remains c...
AeroDeshadow: 気象・航空画像のための物理に基づくシャドウ合成とペンムブラ対応的去シャドウ化
AeroDeshadow: Physics-Guided Shadow Synthesis and Penumbra-Aware Deshadowing for Aerospace Imagery
arXiv:2604.15903v1 Announce Type: new Abstract: 高解像度航空画像(ASI)において影は普遍的に存在します。影は頻繁にスペクトル歪みおよび情報損失を引き起こし、下流の解釈タスクを劣化させます。深度学習手法による自然画像の去シャドウ化が進展したことは確かですが、ASI に直接適用する際に二つの主要な課題が存在します。第一に、厳密にペア付けられたトレーニン...
Original: arXiv:2604.15903v1 Announce Type: new Abstract: Shadows are prevalent in high-resolution aerospace imagery (ASI). They often cause spectral distortion and information loss, which degrade downstream i...
PolarMAE: セマンティックスクリーニングと極座標指向マスキングを活用した効率的な胎児超音波事前トレーニング
PolarMAE: Efficient Fetal Ultrasound Pre-training via Semantic Screening and Polar-Guided Masking
arXiv:2604.15893v1 Announce Type: new アブストラクト:知的胎児超音波(US)解釈は産前診断において不可欠ですが、高annotateコストとオペレーター誘発変動により、無教師学習事前トレーニングは非常に有望なパラジグムです。しかし、既存の事前トレーニング手法は、US特有の特性である重症のデータ冗長性、扇状のローカリティ、そして極座標ビームフォーミングをほとんど無...
Original: arXiv:2604.15893v1 Announce Type: new Abstract: Intelligent fetal ultrasound (US) interpretation is crucial for prenatal diagnosis, but high annotation costs and operator-induced variance make unsupe...
Cloth-HUGS: ボディと服を分離する写真写実的な人体・服のガウススプラッティング
CLOTH-HUGS: Cloth Aware Human Gaussian Splatting
arXiv:2604.15875v1 Announce Type: new 摘要: 私たちは、写実的な服を着た人体の再構成のために、ボディと服を明示的に分離するガウススプラッティングに基づくニューラルレンダリングフレームワーク Cloth-HUGS を提案します。以前の方法が、服を単一の人体表現に吸収し、緩んだ服や複雑な変形と苦戦するのに対し、Cloth-HUGS は共有canonical spa...
Original: arXiv:2604.15875v1 Announce Type: new Abstract: We present Cloth-HUGS, a Gaussian Splatting based neural rendering framework for photorealistic clothed human reconstruction that explicitly disentangl...
UniEditBench: 蒸馏されたマルチモーダル大モデルを介した画像および動画編集のための統合的かつ費用対効果の高いベンチマーク
UniEditBench: A Unified and Cost-Effective Benchmark for Image and Video Editing via Distilled MLLMs
arXiv:2604.15871v1 発表タイプ:新規 要旨:視覚編集モデルの評価は手法とモードにわたり断片化されている。既存のベンチマークは特定のパラダイムに特化しており、公平なパラダイム間比較が困難であり、また動画編集は信頼できる評価ベンチマークを欠いている。さらに、一般的な自動指標は人間の好みを正確に反映していないものの、直接大規模マルチモーダルモデル(MLLMs)をエvaluator(評...
Original: arXiv:2604.15871v1 Announce Type: new Abstract: The evaluation of visual editing models remains fragmented across methods and modalities. Existing benchmarks are often tailored to specific paradigms,...
Splats in Splats++: Robust and Generalizable 3D Gaussian Splatting Steganography
arXiv:2604.15862v1 Announce Type: new Abstract: 3D Gaussian Splatting (3DGS) は最近、3D 再構築のパラダイムを再定義し、視覚的忠実度と計算効率の間の前例のないバランスを達成した。その採用が広まるにつれ、明示的な 3DGS アセットの著作権保護は極めて重要になっている。しかし、既存の不可視メッセージ埋め込みフレームワークは...
Original: arXiv:2604.15862v1 Announce Type: new Abstract: 3D Gaussian Splatting (3DGS) has recently redefined the paradigm of 3D reconstruction, striking an unprecedented balance between visual fidelity and co...
AHS: 擬合成データ拡張を用いた適応的ヘッドシンthesis
AHS: Adaptive Head Synthesis via Synthetic Data Augmentations
arXiv:2604.15857v1 Announce Type: new Abstract: 近年のデジタルメディアの進展により、ポートレート操作に関する高度な技術に対する需要が高まっています。特に、他の個人の身体と滑らかに統合されるようなヘッドスワップ(別体の顔融合)においては、既存のアプローチは主に顔中心のクロップデータや限られた視点角度に依存しており、実世界での適用性を大幅に制限しています...
Original: arXiv:2604.15857v1 Announce Type: new Abstract: Recent digital media advancements have created increasing demands for sophisticated portrait manipulation techniques, particularly head swapping, where...
構造化された潜在空間投射を介した欠落または全体的なモダリティ下での堅牢なマルチスペクトルセマンティックセグメンテーション
Robust Multispectral Semantic Segmentation under Missing or Full Modalities via Structured Latent Projection
arXiv:2604.15856v1 発表タイプ: 新 要約:マルチモーダルリモートセンシングデータはセマンティックセグメンテーションに補完的な情報を提供しますが、実世界のデプロイメントでは、センサーの故障、取得の問題、あるいは厳しい大気条件により、一部のモダリティが利用できない場合があります。既存のマルチモーダルセグメンテーションモデルは、通常、入力全体にわたって共有表現を学習することで欠落し...
Original: arXiv:2604.15856v1 Announce Type: new Abstract: Multimodal remote sensing data provide complementary information for semantic segmentation, but in real-world deployments, some modalities may be unava...
学習前に見たことを知る:美的品質評価に人間視覚認知の統合
Learning to Look before Learning to Like: Incorporating Human Visual Cognition into Aesthetic Quality Assessment
arXiv:2604.15853v1 発表型:新しい 要約:自動美的品質評価 (AQA) は、画像を主に静的なピクセルベクトルとして取り扱い、予測を人間の評価スコアと一致させるために、大半が構文認識を通じて行われています。しかし、このパラダイムは、スキャンパス、処理フラウンシー、およびボトムアップの顕著性とトップダウンの意図との相互作用によって形成される動的な視覚探査に由来する人間の美的認知とは一...
Original: arXiv:2604.15853v1 Announce Type: new Abstract: Automated Aesthetic Quality Assessment (AQA) treats images primarily as static pixel vectors, aligning predictions with human-rating scores largely thr...
テキストプロンプトを超えた:テキストと画像の協調による精密な概念消去
Beyond Text Prompts: Precise Concept Erasure through Text-Image Collaboration
arXiv:2604.15829v1 発表タイプ:新規 要旨: テキストから画像を生成する大規模生成モデルは驚くべき忠実度と多様性を達成しましたが、大規模トレーニングデータに埋め込まれた潜在的バイアスの影響により、無安全または望ましくないコンテンツを意図せず生成するリスクがあります。既存の概念消去手法(テキストのみが中心のものから、画像補助のものまで)は妥協点を伴います。テキストアプローチは概念を...
Original: arXiv:2604.15829v1 Announce Type: new Abstract: Text-to-image generative models have achieved impressive fidelity and diversity, but can inadvertently produce unsafe or undesirable content due to imp...
SSFT: 汎用的ハイパースペクトル分類のための軽量スペクトル・空間融合トラン스포マー
SSFT: A Lightweight Spectral-Spatial Fusion Transformer for Generic Hyperspectral Classification
arXiv:2604.15828v1 発表 タイプ:新規 摘要: ハイパースペクトルイメージングは、豊富なスペクトルシグネチャを取得することで材料の微細な認識を可能にしますが、高い次元性、スペクトル冗余、ラベル付きデータの不足、および強いドメインシフトに起因して頑健な分類器の学習は困難です。地球観測だけでなく、ラベル付き HSI データは一般的に希薄で不均衡であり、多様な取得制度にわたる汎用的なハ...
Original: arXiv:2604.15828v1 Announce Type: new Abstract: Hyperspectral imaging enables fine-grained recognition of materials by capturing rich spectral signatures, but learning robust classifiers is challengi...
人間のように映画を観る:エンボディアッドコンパニオン向けの自分中心的情緒理解
Watching Movies Like a Human: Egocentric Emotion Understanding for Embodied Companions
arXiv:2604.15823v1 発表タイプ:新規 要旨:エンボディアッドロボットエージェントは、本質的な映画映像ではなく自分中心の画面ビューインターフェースを通じて映画を認識するため、視点歪み、スケールの変化、照明の変化、および環境への干渉といったドメインシフトを招く。しかし、既存の映画感情理解研究はほぼ完全に映画映像に限定されており、現実世界の視聴シナリオへのクロスドメイン汎化を制限してい...
Original: arXiv:2604.15823v1 Announce Type: new Abstract: Embodied robotic agents often perceive movies through an egocentric screen-view interface rather than native cinematic footage, introducing domain shif...
Open-world Robotic Manipulation における逐次手-目調整(Continual Hand-Eye Calibration)
Continual Hand-Eye Calibration for Open-world Robotic Manipulation
arXiv:2604.15814v1 Announce Type: new 摘要:視覚ロケーションベースの手-目調整(Hand-eye calibration)は、オープンワールド環境におけるロボティクスマニピュレーションにおいて不可欠な機能です。しかし、多くの深層学習ベースの調整モデルは、オープンワールドにおけるシーンの変化に伴い未見データに適応する際に、カタルーグスフォーgetting(ca...
Original: arXiv:2604.15814v1 Announce Type: new Abstract: Hand-eye calibration through visual localization is a critical capability for robotic manipulation in open-world environments. However, most deep learn...
Vision-Language モデルが見るものと認識するものを調和させる適応的な情報フロー
Aligning What Vision-Language Models See and Perceive with Adaptive Information Flow
arXiv:2604.15809v1 Announce Type: new 摘要:視覚言語モデル(VLM)は、画像認識、ドキュメント解析、ビジュアルグラウンディングなど、多岐にわたるタスクにおいて高い能力を示しています。しかし、最近の研究では、VLM が質問に対応する正しい画像領域を捉えることができる一方で、必ずしも正しい回答を生み出すわけではないことが示されています。本稿では、この不一致は VL...
Original: arXiv:2604.15809v1 Announce Type: new Abstract: Vision-Language Models (VLMs) have demonstrated strong capability in a wide range of tasks such as visual recognition, document parsing, and visual gro...
単一フレームを超え:体積 MRI における多フレーム空間的に裏付けられた推論
Beyond a Single Frame: Multi-Frame Spatially Grounded Reasoning Across Volumetric MRI
arXiv:2604.15808v1 Announce Type: new 概要:空間推論とビジュアルグラウンディングは、ビジョン言語モデル(VLM)の中核的能力であり、しかし多くの医療 VLM は、透明な推論や空間的証拠なしに予測を行う傾向がある。既存のベンチマークも VLM を離散的な 2D イメージで評価することで、臨床イメージングの体積的特性を看過しており、結果が複数のフレームにわたる、あ...
Original: arXiv:2604.15808v1 Announce Type: new Abstract: Spatial reasoning and visual grounding are core capabilities for vision-language models (VLMs), yet most medical VLMs produce predictions without trans...