4037 articles
DualSplat: マルチビュー一貫性を破る一時的なオブジェクトによる 3Dガウシアンスポットリングの耐性向上:再構築失敗からの偽マスクによるブートストラップ
DualSplat: Robust 3D Gaussian Splatting via Pseudo-Mask Bootstrapping from Reconstruction Failures
arXiv:2604.21631v1 発表形式:新規 要約: 3D ガウシアンスポットリング (3DGS) はリアルタイム写真のようなレンダリングを実現していますが、トレーニング画像にマルチビューの一貫性を違反する一時的なオブジェクトが含まれている場合、そのパフォーマンスは著しく低下します。既存の方法は循環的な依存関係に悩まされています:正確な一時的なオブジェクトの検出には良好に再構築された静的な...
Original: arXiv:2604.21631v1 Announce Type: new Abstract: While 3D Gaussian Splatting (3DGS) achieves real-time photorealistic rendering, its performance degrades significantly when training images contain tra...
DCMorph: 二重ストリームクロスアテンション拡散を用いた顔変換技術
DCMorph: Face Morphing via Dual-Stream Cross-Attention Diffusion
arXiv:2604.21627v1 Announce Type: new Abstract: 顔変換攻撃技術の進展は、変化する脅威を予測し、身元認証システムの頑健な防御メカニズムを開発するために不可欠です。本研究は、二重ストリームの拡散ベースの変換フレームワーク DCMorph を提案します。DCMorph は、同時実行する両方のレベルで操作します。画像レベルの手法における混ざり込みのアーツファ...
Original: arXiv:2604.21627v1 Announce Type: new Abstract: Advancing face morphing attack techniques is crucial to anticipate evolving threats and develop robust defensive mechanisms for identity verification s...
パラメトリック投影における局所近傍不安定性:定量化および可視化分析
Local Neighborhood Instability in Parametric Projections: Quantitative and Visual Analysis
arXiv:2604.21617v1 発表タイプ:新規 要旨:パラメトリック投影はアナリストがリアルタイムで新しい点を埋め込むことを可能にしますが、測定ノイズやデータドリフトによる入力の変動は 2D レイアウトへの予測不能なシフトを生じさせます。投影が局所的に安定しているか、およびどこに不安定があるかはほとんど検討されていません。本論文では、選択されたアンカー点を中心としたガウス perturbi...
Original: arXiv:2604.21617v1 Announce Type: new Abstract: Parametric projections let analysts embed new points in real time, but input variations from measurement noise or data drift can produce unpredictable ...
Sculpt4D:スパース・アテンション・ディフュージョン・トランフォーマーによる 4D 形状の生成
Sculpt4D: Generating 4D Shapes via Sparse-Attention Diffusion Transformers
arXiv:2604.21592v1 Announce Type: new Abstract: 最近の 3D 生成モデルの飛躍的進歩により、静的な形状の合成において驚くべき進展が達成されましたが、高忠実度な動的 4D 生成は、時間的なアーティファクトと膨大な計算資源という障壁によって未熟です。私たちは、前準備済みの 3D Diffusion Transformer(Hunyuan3D 2.1)に効...
Original: arXiv:2604.21592v1 Announce Type: new Abstract: Recent breakthroughs in 3D generative modeling have yielded remarkable progress in static shape synthesis, yet high-fidelity dynamic 4D generation rema...
OmniFit: スケール不感度の高密度ランドマーカー予測によるマルチモーダル 3D ボディフィット
OmniFit: Multi-modal 3D Body Fitting via Scale-agnostic Dense Landmark Prediction
arXiv:2604.21575v1 Announce Type: new Abstract: 衣服を着た 3D ヒューマンアセットの下敷きとなるボディモデルへのフィットは広範に研究されているにもかかわらず、既存の多くのアプローチは点雲やマルチビュー画像などのシングルモーダルまたはマルチモーダル入力に限定されており、多くの場合既知の計量スケールを必要としている。この制約は、特にスケール歪みが一般的...
Original: arXiv:2604.21575v1 Announce Type: new Abstract: Fitting an underlying body model to 3D clothed human assets has been extensively studied, yet most approaches focus on either single-modal inputs such ...
CHRep: クロスモーダルヒストロジー表現と事後調整による空間遺伝子発現予測
CHRep: Cross-modal Histology Representation and Post-hoc Calibration for Spatial Gene Expression Prediction
arXiv:2604.21573v1 Announce Type: new Abstract: スペースカルトランスクリプトミクス(ST)は空間的に分解された遺伝子プロファイリングを可能にしますが、コストが高くスループットが低いため、大規模コホート研究やルーチン臨床使用の制限があります。通常のヘマトキシリンとエオシン(H&E)スライドから空間遺伝子発現を予測することは有望な代替手段ですが、現実的な...
Original: arXiv:2604.21573v1 Announce Type: new Abstract: Spatial transcriptomics (ST) enables spatially resolved gene profiling but remains expensive and low-throughput, limiting large-cohort studies and rout...
Deep kernel video approximation for unsupervised action segmentation
arXiv:2604.21572v1 Announce Type: new 本稿は、大規模データの保存が可能でない場合や許可されないケースを含むアプリケーションにおいて興味深い無教師済み逐動画行動セグメンテーションに焦点を当てています。われわれは、背後にあるフレーム分布を可能な限り近似するために、ディープカーネル空間で動画をセグメントすることを提案します。もともとの動画分布とその近似の間のこの近...
Original: arXiv:2604.21572v1 Announce Type: new Abstract: This work focuses on per-video unsupervised action segmentation, which is of interest to applications where storing large datasets is either not possib...
組成的基盤に基づく分布外検出
Component-Based Out-of-Distribution Detection
arXiv:2604.21546v1 Announce Type: new 概要:分布外 (OOD) 検出は、自然な在分布 (ID) 多様性に対して過剰反応を起こさずに、微妙な変化に敏感性を持たせる必要があります。しかし、検出粒度の観点から見て、グローバルな表現はローカルの OOD ヒアに抑圧的に働き、パッチベースの手法は偽の相関とノイズによる絡みつきに不安定です。そして、どちらも有効な成分を備...
Original: arXiv:2604.21546v1 Announce Type: new Abstract: Out-of-Distribution (OOD) detection requires sensitivity to subtle shifts without overreacting to natural In-Distribution (ID) diversity. However, from...
Foundation モデルを用いた注意ベースの複数インスタンス学習:肺腺がんの全スライドレベルにおける主要成長パターン予測
Attention-based multiple instance learning for predominant growth pattern prediction in lung adenocarcinoma wsi using foundation models
arXiv:2604.21530v1 Announce Type: new 摘要:肺腺がん(LUAD)の grading は、成長パターンの正確な特定に依存しており、これは予後を示す指標であると同時に治療決定に影響を与える。一般的な深層学習アプローチは、パッチレベルの分類またはセグメンテーションに頼っており、大規模なアノテーションを必要とする。本論文は、アノテーション負荷を削減するために全スライ...
Original: arXiv:2604.21530v1 Announce Type: new Abstract: Lung adenocarcinoma (LUAD) grading depends on accurately identifying growth patterns, which are indicators of prognosis and can influence treatment dec...
Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models
arXiv:2604.21523v1 Announce Type: new Abstract: 大規模ビジョン・ランゲージモデル(VLM)は、画像からテキスト(I2T)タスクとしての視覚的質問回答や、テキストから画像(T2I)生成タスクにおける他のモデルの出力評価に increasingly 利用されつつある。この利用が増加しているにもかかわらず、これらの Evaluator VLM の信頼性は十...
Original: arXiv:2604.21523v1 Announce Type: new Abstract: Large Vision-Language Models (VLMs) are increasingly used to evaluate outputs of other models, for image-to-text (I2T) tasks such as visual question an...
GMD: 3D フラグメントのペアマッチング用のガウス混合記述子
Gmd: Gaussian mixture descriptor for pair matching of 3D fragments
arXiv:2604.21519v1 Announce Type: new Abstract: レーザースキャナーで取得された断片の自動再構成において、破片表面のマッチングは最も重要なステップの一つです。本稿では、点分布にフィットさせるためにガウス混合モデル(GMM)を用いる新たな局所記述子を提案します。我々の手法は、局所表面パッチを凹凸領域に分け、GMM の k 値を推定し、次に領域ごとの GM...
Original: arXiv:2604.21519v1 Announce Type: new Abstract: In the automatic reassembly of fragments acquired using laser scanners to reconstruct objects, a crucial step is the matching of fractured surfaces. In...
VFM$^{4}$SDG: VFMs の力を引き出す、単独ドメインに依存しない汎用オブジェクト検出の解明
VFM$^{4}$SDG: Unveiling the Power of VFMs for Single-Domain Generalized Object Detection
arXiv:2604.21502v1 発表タイプ:新規 要旨:現実世界のシナリオにおいて、気象、照明、および撮影条件の継続的な変化は大きなドメインシフトを引き起こし、単一ソースドメインで訓練された検出器は未見環境で大きく性能を低下させる。既存の単独ドメインに依存しない汎用オブジェクト検出(SDGOD)手法は主にデータ拡張やドメイン不変表現学習に依存しており、検出器の機構には注力されていないため、複...
Original: arXiv:2604.21502v1 Announce Type: new Abstract: In real-world scenarios, continual changes in weather, illumination, and imaging conditions cause significant domain shifts, leading detectors trained ...
静的な大規模言語モデルによる地図認識型時空間推論器:車両経路予測のための研究
Frozen LLMs as Map-Aware Spatio-Temporal Reasoners for Vehicle Trajectory Prediction
論文 ID: arXiv:2604.21479v1 公開型:新 要約:最近、大規模言語モデル(LLM)は強い推論能力を示し、自律運転(AD)の分野において研究関心に増しています。しかし、LLM を AD の認識・予測に安全に適用するには、動的な交通主体と静的な道路インフラの両方について深く理解する必要があります。本研究中は、LLM の動的な交通主体の行動と道路ネットワークのトポロジーを理解する能力...
Original: arXiv:2604.21479v1 Announce Type: new Abstract: Large language models (LLMs) have recently demonstrated strong reasoning capabilities and attracted increasing research attention in the field of auton...
セマンティックな微細な整合性と混合専門家によるドメイン間評価の再考:顔偽造検出のために
Rethinking Cross-Domain Evaluation for Face Forgery Detection with Semantic Fine-grained Alignment and Mixture-of-Experts
arXiv:2604.21478v1 Announce Type: new Abstract: 生成モデルの急速な発展に伴い、視覚データの偽造検出は社会および経済セキュリティにおいてますます重要な役割を果たしています。既存の顔偽造検出器は、データセット間の一般化能力の不十分さにより、まだ満足性能を達成できていません。この現象を引き起こした主要要因は、適切な指標の不足です。一般的に使用されるクロスデ...
Original: arXiv:2604.21478v1 Announce Type: new Abstract: Nowadays, visual data forgery detection plays an increasingly important role in social and economic security with the rapid development of generative m...
ID-Eraser: 顔交換の能動的防御のための識別情報の干渉
ID-Eraser: Proactive Defense Against Face Swapping via Identity Perturbation
arXiv:2604.21465v1 発表タイプ:新規 要約:ディープフェイク技術は現代の生成 AI の進展に伴い急速に高みへ到達しており、その中でも顔交換技術はプライバシーおよびデジタルセキュリティに対して深刻な脅威を呈しています。既存の能動的防御手法は主にピクセルレベルの干渉に依存しており、これらは高度な識別エンベディングを抽出する現代的な交換モデルに対して効果的ではありません。我々は、識別可...
Original: arXiv:2604.21465v1 Announce Type: new Abstract: Deepfake technologies have rapidly advanced with modern generative AI, and face swapping in particular poses serious threats to privacy and digital sec...
多式大規模言語モデルが指し示を理解しているのか?一貫視点における参照推論のベンチマークと強化
Do MLLMs Understand Pointing? Benchmarking and Enhancing Referential Reasoning in Egocentric Vision
arXiv:2604.21461v1 発表 タイプ:新しい 要約:自己中心型 AI アージェント(例えばスマートグラス)は、自然言語コマンドにおける参照の曖昧さを解消するために指し示しジェスチャーに依存しています。しかし、マルチモーダル大規模言語モデル(MLLM)の進歩にもかかわらず、現在のシステムはしばしば指し示しの空間的文法を正確にアンカーできず、代わりに視覚的親近感や対象の顕著性との誤った相...
Original: arXiv:2604.21461v1 Announce Type: new Abstract: Egocentric AI agents, such as smart glasses, rely on pointing gestures to resolve referential ambiguities in natural language commands. However, despit...
混雑状況認識を考慮したインスタンスレベルビジュアルアクティブトラックリング:OA-VAT
Instance-level Visual Active Tracking with Occlusion-Aware Planning
arXiv:2604.21453v1 Announce Type: new 要旨:ビジュアルアクティブトラックリング(VAT)は、標的を 3 次元空間に追跡するようにカメラを制御するもので、ドローンナビゲーションやセキュリティ監視などのアプリケーションにおいて極めて重要です。しかし、現実的なデプロイメントにおいて、不足したインスタンスレベル区別による類似の外見を持つ混同対象に起因する混乱と、アクテ...
Original: arXiv:2604.21453v1 Announce Type: new Abstract: Visual Active Tracking (VAT) aims to control cameras to follow a target in 3D space, which is critical for applications like drone navigation and secur...
VARestorer: 一ステップ VAR ディストリルションによる実世界画像超分解像化
VARestorer: One-Step VAR Distillation for Real-World Image Super-Resolution
arXiv:2604.21450v1 発表タイプ: 新規 概要:直近の可視自動回帰モデル(VAR)の進歩は画像生成における効果性を示しており、実世界画像超分解像化(Real-ISR)への潜在力を見出している。しかし、VAR を ISR に適応させるには重要な課題が存在する。因果的な注意に制約された次のスケール予測メカニズムは、低品質(LQ)のグローバルコンテキストを十分に利用できず、ボケた不整合な...
Original: arXiv:2604.21450v1 Announce Type: new Abstract: Recent advancements in visual autoregressive models (VAR) have demonstrated their effectiveness in image generation, highlighting their potential for r...
2L-LSH: Loctality-Sensitive Hash 関数に基づく高速点群インデックス化手法
2L-LSH: A Locality-Sensitive Hash Function-Based Method For Rapid Point Cloud Indexing
arXiv:2604.21442v1 発表タイプ:新規 要旨: 3D スキャン技術の発展により、多様な構造を持ち、大規模な点群モデルの取得が可能となり、点群処理において重大な課題が生じている。近傍点の高速検索は、モデルの再構成、分類、検索、特徴可視化など頻繁に使用される問題の一つである。ハッシュ関数は高次元データ検索において高速かつ高精度な性能を示しており、それが提案された 2L-LSH の核心...
Original: arXiv:2604.21442v1 Announce Type: new Abstract: The development of 3D scanning technology has enabled the acquisition of massive point cloud models with diverse structures and large scales, thereby p...
UHR-DETR: 超解像度遠隔センシング画像のための効率的エンド・ツー・エンド小物体検出
UHR-DETR: Efficient End-to-End Small Object Detection for Ultra-High-Resolution Remote Sensing Imagery
arXiv:2604.21435v1 Announce Type: new Abstract: 超解像度(UHR)画像は、現代の遠隔センシングにおいて不可欠なものとなり、過去に見ない空間的カバレッジを提供しました。しかし、如此巨大なシーンにおいて小物体を検出することは、根本的なジレンマを引き起こします。小物体のオリジナル分解能を保持しようとするのは、禁止的なメモリボトルネックを引き起こすからで...
Original: arXiv:2604.21435v1 Announce Type: new Abstract: Ultra-High-Resolution (UHR) imagery has become essential for modern remote sensing, offering unprecedented spatial coverage. However, detecting small o...