4037 articles
GTAvoidar:リライトとエディタブルなガウスアバターのための、ガウススプラッティングとテクスチャマッピングを繋ぐ
GTAvatar: Bridging Gaussian Splatting and Texture Mapping for Relightable and Editable Gaussian Avatars
arXiv:2512.09162v2 通告タイプ:置換 要約:最近のガウススプラッティングの進展は、写真写実的な頭部アバターの再構成をますます正確なものにし、ビジュアルエフェクト、ビデオ会議、仮想実在の多数のアプリケーションへの扉を開いた。しかし、これは従来の三角形メッシュベースの手法が提供する直感的なエディタビリティの欠如を伴う。対照的に、我々は、2 次元ガウススプラッティングの精度と忠実度と...
Original: arXiv:2512.09162v2 Announce Type: replace Abstract: Recent advancements in Gaussian Splatting have enabled increasingly accurate reconstruction of photorealistic head avatars, opening the door to num...
MomaGraph:Vision-Language モデルに基づく状態意識型統一次元グラフによるエンバウディッドタスク計画
MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning
arXiv:2512.16909v2 Announce Type: replace 本文書では、家庭環境でのモビリティ・ロボティクス(移動系操作ロボット)において、ナビゲーションと操作を同時に行うための、対象の位置、機能、操作可能な部位を包括的に表す緊密な文脈表現の必要性に迫ります。従来のシーングラフアプローチは空間的・機能的関係の分離、静的な画像としての扱い、そして現在のタスク達成に関連する情報...
Original: arXiv:2512.16909v2 Announce Type: replace Abstract: Mobile manipulators in households must both navigate and manipulate. This requires a compact, semantically rich scene representation that captures ...
ALIGN: LiDAR と画像による高度なクエリ初期化を応用した、不透過物体検出における遮蔽耐性のある 3D 物体検出
ALIGN: Advanced Query Initialization with LiDAR-Image Guidance for Occlusion-Robust 3D Object Detection
arXiv:2512.18187v2 Announce Type: replace Abstract: 最近、カメラと LiDAR 入力を使用するクエリベースの 3D 物体検出法は高いパフォーマンスを示していますが、ランダムサンプリングや BEV ヒートマップベースのサンプリングなどの既存のクエリ初期化戦略は、非効率なクエリ使用および精度低下をもたらすことがあり、特に遮蔽や混雑している対象物の場合...
Original: arXiv:2512.18187v2 Announce Type: replace Abstract: Recent query-based 3D object detection methods using camera and LiDAR inputs have shown strong performance, but existing query initialization strat...
Vision Transformers におけるブロック再帰的な動的挙動
Block-Recurrent Dynamics in Vision Transformers
arXiv:2512.19941v2 Announce Type: replace 摘要: Vision Transformers (ViT) が標準的なビジョンバックボーンとなりつつある今、それらの計算現象の機械的な説明が不可欠です。構造的な手がかりが動的構造を示唆するものの、Transformers の深さをよく特徴付けられた流れとして解釈する確立された枠組みは存在しません。本稿では、Bloc...
Original: arXiv:2512.19941v2 Announce Type: replace Abstract: As Vision Transformers (ViTs) become standard vision backbones, a mechanistic account of their computational phenomenology is essential. Despite ar...
SuperiorGAT: スパース化された LiDAR パー・クラウドの再構築のための自律システム用グラフAttentionネットワーク
SuperiorGAT: Graph Attention Networks for Sparse LiDAR Point Cloud Reconstruction in Autonomous Systems
arXiv:2512.22439v3 発表タイプ: 置換 要約:自律システムにおける LiDAR ベーサードの感知は、固定された垂直ビーム解像度に制約され、環境の遮蔽によるビームの欠落によりさらに悪化しています。本研究では、欠落した高度情報を再構築するためのグラフ Attention ベースのフレームワーク「SuperiorGAT」を導入します。LiDAR スキャンをビームアウェアなグラフとしてモ...
Original: arXiv:2512.22439v3 Announce Type: replace Abstract: LiDAR-based perception in autonomous systems is constrained by fixed vertical beam resolution and further compromised by beam dropout resulting fro...
G2P: ガウスからポイントへの属性一致化に基づく境界感に配慮した 3D セマンティックセグメンテーション
G2P: Gaussian-to-Point Attribute Alignment for Boundary-Aware 3D Semantic Segmentation
arXiv:2601.03510v2 Announce Type: replace 要旨:ポイントクラウドにおけるセマンティックセグメンテーションは、3D シーン理解において不可欠です。しかし、点の非規則的な分布は限られた外観証拠を提供するだけであり、幾何学のみを特徴とする既存の手法は、形状は似ていても外観(例:色、テクスチャ、素材)が異なるものを識別する能力に不足しています。我々は、3D ガウ...
Original: arXiv:2601.03510v2 Announce Type: replace Abstract: Semantic segmentation on point clouds is critical for 3D scene understanding. However, sparse and irregular point distributions provide limited app...
全腹低剂量 PET ノイズ除去における制御された拡散に適用する 3 次元ウェーブレットに基づく構造的先行
3D Wavelet-Based Structural Priors for Controlled Diffusion in Whole-Body Low-Dose PET Denoising
arXiv:2601.07093v3 Announce Type: replace 要旨:低線量陽電子断層画像法(PET)は患者への放射被曝を低減できますが、ノイズの増加により画像品質および診断の信頼性が低下します。拡散モデルは強力なノイズ除去能力を示していますが、その確率的な性質のため、特に低信号対雑音比環境や体積全体の画像において、解剖学的に一貫性のある構造を強制するのが困難です。我々は、体...
Original: arXiv:2601.07093v3 Announce Type: replace Abstract: Low-dose Positron Emission Tomography (PET) imaging reduces patient radiation exposure but suffers from increased noise that degrades image quality...
Moonworks Lunara Aesthetic Dataset
arXiv:2601.07941v4 発表 タイプ: 置換 要約:このデータセットは、中東、北欧、東アジア、南アジアといった地域に根ざした美意識を含め、スケッチや油絵などの一般的なカテゴリも含む多様な芸術スタイルを網羅しています。すべての画像は Moonworks Lunara モデルを使用して生成され、明確で高品質な美意識スタイルを反映するように意図的に作成されており、これにより、美学に特化した...
Original: arXiv:2601.07941v4 Announce Type: replace Abstract: The dataset spans diverse artistic styles, including regionally grounded aesthetics from the Middle East, Northern Europe, East Asia, and South Asi...
Vision-Language モデルに対するユニバーサルマルチモーダル攻撃の階層的洗練
Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models
arXiv:2601.10313v2 Announce Type: replace 要約: 既存の VLP モデル(ビジョン・ランゲージ・モデル)のための敵対的攻撃は、主にサンプル固有であり、それを大規模なデータセットや新しいシナリオに拡張する際の計算上のオーバーヘッドが著しく大きくなっています。この限界を克服するために、私たちは VLP モデル向けのマルチモーダルユニバーサル攻撃フレームワーク...
Original: arXiv:2601.10313v2 Announce Type: replace Abstract: Existing adversarial attacks for VLP models are mostly sample-specific, resulting in substantial computational overhead when scaled to large datase...
SUG-Occ: 現実時間 3D 占有予測のための明示的なセマンティクスと不確実性を導向したスパース学習フレームワーク
SUG-Occ: An Explicit Semantics and Uncertainty Guided Sparse Learning Framework for Real-Time 3D Occupancy Prediction
arXiv:2601.11396v4 Announce Type: replace 摘要:自律走行がフルシーン理解へ向かいる中、3D セマンティック占有予測は、従来の検出およびセグメンテーションパラダイムを超えたvoxelレベルのセマンティクスを提供する重要な認識タスクとして登場しました。しかし、そのような高度に加工されたシーンの理解表現は、禁止的な計算とメモリオーバーヘッドを伴い、実用的なリアル...
Original: arXiv:2601.11396v4 Announce Type: replace Abstract: As autonomous driving moves toward full scene understanding, 3D semantic occupancy prediction has emerged as a crucial perception task, offering vo...
人間のシーン理解に一致するメタメアの生成
Generating metamers of human scene understanding
arXiv:2601.11675v2 発表 タイプ: 置き換え 要約: 人間の視覚は、視覚周辺部から得られる低解像度の「 gist (全体像)」情報と、視点を固定した位置から得られる高解像度だが疎な情報を組み合わせて、視覚シーンの統一的な理解を構築します。本論文では、人間の潜在性シーン表現に整合したシーンの生成を行うためのツール「MetamerGen」を導入します。MetamerGen は、周辺...
Original: arXiv:2601.11675v2 Announce Type: replace Abstract: Human vision combines low-resolution "gist" information from the visual periphery with sparse but high-resolution information from fixated location...
GO-MLVTON:拡散モデルを用いた衣服不飽和を考慮したマルチレイヤー仮想トライオン
GO-MLVTON: Garment Occlusion-Aware Multi-Layer Virtual Try-On with Diffusion Models
arXiv:2601.13524v3 Announce Type: replace Abstract: 既存の画像ベースの仮想トライオン(VTON)手法は、単一レイヤーまたはマルチガーメント VTON に焦点を当てており、人体に複数のレイヤーの衣服を着せ、現実的な変形と重ね合わせを実現して視覚的に説得的な結果を生成するマルチレイヤー VTON(ML-VTON)を軽視しています。主な課題は、内側と...
Original: arXiv:2601.13524v3 Announce Type: replace Abstract: Existing image-based virtual try-on (VTON) methods primarily focus on single-layer or multi-garment VTON, neglecting multi-layer VTON (ML-VTON), wh...
Federated Balanced Learning
arXiv:2601.14042v2 Announce Type: replace 要約:Federated(フェデレーテッド)ラーニングは、データではなくモデルパラメータの共有を通じてクライアントが協働する共同学習のパラダイムです。しかし、非-iid設定では、グローバルモデルがクライアントのドリフトを経験し、最終的なモデルパフォーマンスに深刻な影響を与える可能性があります。従来の手法は、損失関数...
Original: arXiv:2601.14042v2 Announce Type: replace Abstract: Federated learning is a paradigm of joint learning in which clients collaborate by sharing model parameters instead of data. However, in the non-ii...
ThermoSplat: 機能調節と幾何学的分離を備えたクロスモーダル 3D ギャウジアン Splatter
ThermoSplat: Cross-Modal 3D Gaussian Splatting with Feature Modulation and Geometry Decoupling
arXiv:2601.15897v2 発表タイプ: 置換 要約:RGB データと熱赤外線データを組み合わせたマルチモーダルシーン復元は、多様な照明条件と気象条件での頑健な環境認識において不可欠である。しかし、マルチスペクトルシナリオへの 3D ギャウジアン Splatter (3DGS) の拡張は依然として挑戦的で、現在の手法はマルチモーダルデータの補完的信息を十分に活用するのが困難である。これ...
Original: arXiv:2601.15897v2 Announce Type: replace Abstract: Multi-modal scene reconstruction integrating RGB and thermal infrared data is essential for robust environmental perception across diverse lighting...
Visual Prompt-Agnostic Evolution
arXiv:2601.20232v2 Announce Type: replace Abstract: Visual Prompt Tuning (VPT) は、各レイヤーのトークンシーケンスに可学習プロンプトトークンを読み込むことで、固定されたビジョントランスフォーマー(ViT)をダウンストリームタスクに適応させます。しかし、我々は既存の VPT バージョンが不安定な学習ダイナミクス、特に勾配...
Original: arXiv:2601.20232v2 Announce Type: replace Abstract: Visual Prompt Tuning (VPT) adapts a frozen Vision Transformer (ViT) to downstream tasks by inserting a small number of learnable prompt tokens into...
CAF-Mamba: 多式分解圧症検出のための Mamba ベースクロスモーダル適応的注意融合
CAF-Mamba: Mamba-Based Cross-Modal Adaptive Attention Fusion for Multimodal Depression Detection
論文: arXiv:2601.21648v2 発表タイプ: 置換 要約: 多式分解抑郁症是一种普遍的心理健康疾病,严重损害日常功能和生活质量。虽然近期的抑郁症检测深度学习方案显示出了希望,但大多数方案依赖于有限类型的功能,忽略了明确的跨模态交互,并且对于融合采用了简单的拼接或静态权重。为了解决这些局限性,我们提出了 CAF-Mamba,这是一种新颖的基于 Mamba 的跨模态自适应注意力融合框架。...
Original: arXiv:2601.21648v2 Announce Type: replace Abstract: Depression is a prevalent mental health disorder that severely impairs daily functioning and quality of life. While recent deep learning approaches...
Q-Hawkeye: 画像品質評価のための信頼性のある視覚政策最適化
Q-Hawkeye: Reliable Visual Policy Optimization for Image Quality Assessment
arXiv:2601.22920v2 Announce Type: replace 摘要:画像品質評価 (IQA) は、人間の判断と一貫する知覚品質スコアを予測します。最近の MLLM(多モーダル大規模言語モデル)に基づいた RL ベースの IQA 手法は、視覚品質の説明とスコアの生成に焦点を当てていますが、以下の 2 つの主要な信頼性限界を無視しています:(i) モデルの予測安定性はトレーニング...
Original: arXiv:2601.22920v2 Announce Type: replace Abstract: Image Quality Assessment (IQA) predicts perceptual quality scores consistent with human judgments. Recent RL-based IQA methods built on MLLMs focus...
LatentLens: LLM において高度に解釈可能な視覚トークンを明らかにする
LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs
arXiv:2602.00462v2 Announce Type: replace 要約: 大規模言語モデル (LLM) を視覚言語モデル (VLM) へと変換するためには、視化エンコーダーからの視覚トークンを LLM の埋め込み空間に変換する必要がある。興味深いことに、この変換は浅い MLP 変換さえ行うだけでも十分である。LLM が視覚トークンをどのように容易に処理できるのかを理解するためには...
Original: arXiv:2602.00462v2 Announce Type: replace Abstract: Transforming a large language model (LLM) into a Vision-Language Model (VLM) can be achieved by mapping the visual tokens from a vision encoder int...
Moonworks Lunara Aesthetic II: 文脈整合性に関する画像バリエーションデータの紹介
Moonworks Lunara Aesthetic II: An Image Variation Dataset
arXiv:2602.01666v3 発表タイプ:代替 要約:当研究では、現代の画像生成・編集システムの文脈整合性の制御された評価と学習を支援するために設計され、公開され、倫理的に収集された画像データセットである「Lunara Aesthetic II」を紹介します。このデータセットは、Moonworks によるオリジナルアートおよび写真から抽出された 2,854 組のアンカー連結バリエーションペ...
Original: arXiv:2602.01666v3 Announce Type: replace Abstract: We introduce Lunara Aesthetic II, a publicly released, ethically sourced image dataset designed to support controlled evaluation and learning of co...
ReasonEdit: 人間による推論を用いた視覚・言語モデルの編集
ReasonEdit: Editing Vision-Language Models using Human Reasoning
arXiv:2602.02408v3 Announce Type: replace 要旨:モデル編集は、関連しない動作を変えずに、大規模事前学習モデルの誤りを修正することを目的としています。最近のいくつかの研究で視覚・言語モデル(VLMs)が編集されていますが、既存の編集者は、人間とモデルが画像を論理づける必要がある通常の大規模な推論重たいタックを扱っていません。したがって、我々は、ユーザーが編集...
Original: arXiv:2602.02408v3 Announce Type: replace Abstract: Model editing aims to correct errors in large, pretrained models without altering unrelated behaviors. While some recent works have edited vision-l...