12901 articles
增強型混合 3D 生成敵対ネットワーク:3D オブジェクトの補完と生成
Enhanced Mixture 3D CGAN for Completion and Generation of 3D Objects
arXiv:2602.08046v1 発表タイプ:新 要約:3D オブジェクトの生成と補完は、コンピュータビジョンにおいて転換的な課題を表しています。生成敵対ネットワーク(GANs)は、最近、現実的な視覚データ合成において強力な潜在的力を示しました。しかし、彼らは複雑かつ多様なデータ分布を捉えることに困難を覚えていることがあり、特に不完全な入力や大幅な欠損領域を伴うシナリオにおいてはより顕著で...
Original: arXiv:2602.08046v1 Announce Type: new Abstract: The generation and completion of 3D objects represent a transformative challenge in computer vision. Generative Adversarial Networks (GANs) have recent...
Vanilla Group Equivariant Vision Transformer: Simple and Effective
arXiv:2602.08047v1 Announce Type: new Abstract: 対称性の事前知識をインдукティブバイアスとして取り入れることで対等なビジョントランスフォーマー(ViT)を設計するアプローチは、性能向上の有望な道筋となってきました。しかし、既存の対等な ViT は、ViT 内の多様なモジュール—特にパッチ埋め込みと自己注意機構の調和—において、性能と対等性のバランス...
Original: arXiv:2602.08047v1 Announce Type: new Abstract: Incorporating symmetry priors as inductive biases to design equivariant Vision Transformers (ViTs) has emerged as a promising avenue for enhancing thei...
Weak to Strong: VLM ベースの仮ラベル付けをマルチモーダルビデオに基づく隠れ感情理解タスクにおける軽微な监督学習戦略として
Weak to Strong: VLM-Based Pseudo-Labeling as a Weakly Supervised Training Strategy in Multimodal Video-based Hidden Emotion Understanding Tasks
arXiv:2602.08057v1 発表タイプ:新しい 摘要: 本論文は、ビデオにおける「隠れた感情」の自動認識に課題を解決するために、マルチモーダルな軽微监督フランクワークを提案し、iMiGUE テニスインタビューデータセットで最良の成績を達成しました。まず、YOLO 11x が人間のポートレートをフレームごとに検出・切り出し、DINOv2-Base が切り出された領域から視覚的特徴を抽出しま...
Original: arXiv:2602.08057v1 Announce Type: new Abstract: To tackle the automatic recognition of "concealed emotions" in videos, this paper proposes a multimodal weak-supervision framework and achieves state-o...
Picasso: 物理制約付きサンプリングを用いた包括的なシーン再構築
Picasso: Holistic Scene Reconstruction with Physics-Constrained Sampling
arXiv:2602.08058v1 Announce Type: new Abstract: 遮蔽や測定ノイズが存在する環境において、センサーデータに適合する幾何学的に正確なシーン再構築は依然として物理的に誤っている可能性がある。例えば、シーンの物体の姿勢と形状を推定し、それらをシミュレーターに取り込む際、小さな誤差は物体の相互貫入や不安定な平衡状態を含む不合理な構成として現れる。これにより、...
Original: arXiv:2602.08058v1 Announce Type: new Abstract: In the presence of occlusions and measurement noise, geometrically accurate scene reconstructions -- which fit the sensor data -- can still be physical...
DICE: Diffusion モデルにおけるコントラスト性部分分解を用いた作家スタイルとコンテンツの分離
DICE: Disentangling Artist Style from Content via Contrastive Subspace Decomposition in Diffusion Models
論文: arXiv:2602.08059v1 発表タイプ: new 要約: 最近のディフュージョンモデルの普及により、スタイルの模倣が容易になり、許可なく独自の芸術スタイルを模倣できるようになりました。デプロイされたプラットフォームでは、これは著作権および知的財産のリスクを高め、信頼性の高い保護を求めています。しかし、既存の対策は、新しいスタイルが登場する際に高価な重み編集が必要だったり、明示的...
Original: arXiv:2602.08059v1 Announce Type: new Abstract: The recent proliferation of diffusion models has made style mimicry effortless, enabling users to imitate unique artistic styles without authorization....
ReRoPE: RoPE を再利用した相対カメラ制御
ReRoPE: Repurposing RoPE for Relative Camera Control
arXiv:2602.08068v1 発表型: 新しい 要旨: 制御可能なカメラアングルを持つ動画生成は、インタラクティブコンテンツ作成、ゲーム、シミュレーションなどのアプリケーションにおいて不可欠である。既存の手法では、事前に学習済み動画モデルが、固定された参照(例: 最初のフレーム)に対して定義されたカメラポーズをベースに適応させるようになっている。しかし、これらのエンコーディングはシフト不変...
Original: arXiv:2602.08068v1 Announce Type: new Abstract: Video generation with controllable camera viewpoints is essential for applications such as interactive content creation, gaming, and simulation. Existi...
ViT-5:現代中期の 2020 年代向けヴィジョントランスフォーマー
ViT-5: Vision Transformers for The Mid-2020s
arXiv:2602.08071v1 発表タイプ:新規 本稿では、過去 5 年間のアーキテクチャ進歩を活かし、現代のヴィジョントランスフォーマー(ViT)をシステム的に近代化することを実証した。画一的な「Attention-FFN」構造を保ちつつ、ノーマライゼーション、活性化関数、位置エンコーディング、ゲート機構、そして学習可能なトークンといったコンポーネント単位で微調整を行った。これらの更新は、...
Original: arXiv:2602.08071v1 Announce Type: new Abstract: This work presents a systematic investigation into modernizing Vision Transformer backbones by leveraging architectural advancements from the past five...
VidVec: ビデオ MLLM エンベディングの解放によるビデオ・テキスト検索
VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval
arXiv:2602.08099v1 Announcement Type: new Abstract: 最近の研究は、生成型マルチモーダル大規模言語モデル (MLLM) をビジョンタスク用のエンベディング抽出器に適応させ、通常は汎用的表現を生成するために微調整を行っています。しかし、それらはビデオタスクにおけるパフォーマンスはビデオファウンデーションモデル (VFM) に劣ります。本論文では、ML...
Original: arXiv:2602.08099v1 Announce Type: new Abstract: Recent studies have adapted generative Multimodal Large Language Models (MLLMs) into embedding extractors for vision tasks, typically through fine-tuni...
MMLSv2:遠隔観測画像における火星地滑の検出のためのマルチモーダルデータセット
MMLSv2: A Multimodal Dataset for Martian Landslide Detection in Remote Sensing Imagery
arXiv:2602.08112v1 発表種別:新規 要約:火星表面における地滑のセグメンテーション用データセットである MMLSv2 を提示します。MMLSv2 は RGB、デジタル標高モデル、傾斜、熱慣性、およびグレイスケールチャネルの 7 バンドを含むマルチモーダル画像で構成されています。このデータセットには、トレーニング、検証、テストの分割にわたって分布する 664 枚の画像が含まれていま...
Original: arXiv:2602.08112v1 Announce Type: new Abstract: We present MMLSv2, a dataset for landslide segmentation on Martian surfaces. MMLSv2 consists of multimodal imagery with seven bands: RGB, digital eleva...
パッチベースのトランスフォーマー法を用いた衛星画像による建物被害検出
Building Damage Detection using Satellite Images and Patch-Based Transformer Methods
arXiv:2602.08117v1 Announce Type: new 本文書は、被災後の対応において迅速な建物被害の評価が極めて重要であるとともに、衛星画像上に構築された被害分類モデルが状況認識を可能な限りスケーラブルにする手段を提供することを説明する。しかし、衛星データにおけるラベルノイズと深刻なクラスアンバランスは主要な課題となっている。xrd データセットは、多様な地理的領域における建...
Original: arXiv:2602.08117v1 Announce Type: new Abstract: Rapid building damage assessment is critical for post-disaster response. Damage classification models built on satellite imagery provide a scalable mea...
MambaFusion: 多重モーダル 3D 物体検知のための適応型状態空間融合
MambaFusion: Adaptive State-Space Fusion for Multimodal 3D Object Detection
arXiv:2602.08126v1 発表タイプ:新規 要約:信頼性の高い 3D 物体検知は自律型車両の基盤であり、カメラと LiDAR を使用する多重モーダル融合アルゴリズムは依然として大きな課題です。カメラは密度の高い視覚情報を提供しますが、深度の推定は不確定性が高く、LiDAR は正確な 3D 構造を提供しますが、データの分布が偏っているという課題があります。既存の BEV ベースの融合フ...
Original: arXiv:2602.08126v1 Announce Type: new Abstract: Reliable 3D object detection is fundamental to autonomous driving, and multimodal fusion algorithms using cameras and LiDAR remain a persistent challen...
世界のフィールド:農地境界の抽出のためのフィールドガイド
Fields of The World: A Field Guide for Extracting Agricultural Field Boundaries
arXiv:2602.08131v1 Announce Type: new アブストラクト:農地境界マップは農業データ産品の基礎的な要素であり、作物のモニタリング、収量推定、病害推定をサポートしています。このチュートリアルでは、160 万の農地ポリゴンが 24 カ国にわたって含まれるベンチマーク、事前トレーニングされたセグメンテーションモデル、およびコマンドライン推論ツールから構成される Fiel...
Original: arXiv:2602.08131v1 Announce Type: new Abstract: Field boundary maps are a building block for agricultural data products and support crop monitoring, yield estimation, and disease estimation. This tut...
分割画像による悪意のある入力攻撃に対する視覚言語モデルの頑健性
Robustness of Vision Language Models Against Split-Image Harmful Input Attacks
arXiv:2602.08136v1 発表 タイプ:新規 本文書において、我々は視覚言語モデル(VLM)における新たな脆弱性を特定します。VLM の前訓練およびインストラクションチューニングは分割画像の入力に対して非常に汎化性能が高いことが知られていますが、安全アライメント(Safety Alignment)は通常、ホリスティック(全体の)画像に対してのみ行われ、複数の画像断片に分散して配置された...
Original: arXiv:2602.08136v1 Announce Type: new Abstract: Vision-Language Models (VLMs) are now a core part of modern AI. Recent work proposed several visual jailbreak attacks using single/ holistic images. Ho...
DAS-SK: 農業のセマンティックセグメンテーションに適応する二重アトロス可分離および選択核 CNN を統合した軽量モデル
DAS-SK: An Adaptive Model Integrating Dual Atrous Separable and Selective Kernel CNN for Agriculture Semantic Segmentation
arXiv:2602.08168v1 発表タイプ:新 抽出: 高解像度の農業画像におけるセマンティックセグメンテーションは、実用システムへの展開を可能にするためには、精度と計算効率のバランスを慎重に調整する必要がある。本研究では、多スケール特徴量の学習を強化するために選択核畳み込み(SK-Conv)を二重アトロス可分離畳み込み(DAS-Conv)モジュールに統合した、新しい軽量アーキテクチャである...
Original: arXiv:2602.08168v1 Announce Type: new Abstract: Semantic segmentation in high-resolution agricultural imagery demands models that strike a careful balance between accuracy and computational efficienc...
PEGAsus: 幾何形状とアペアーランスの 3D 個人化
PEGAsus: 3D Personalization of Geometry and Appearance
arXiv:2602.08198v1 発表型: 新規 要約: 私たちは、GEOMETRY と APPEARANCE の両方のレベルで形状コンセプトを学習することで、個人化された 3D 形状を生成可能な新しいフレームワーク PEGAsus を提案します。第一に、私たちは 3D 形状の個人化を、参照形状からカテゴリー不感性的な幾何学的およびアペアーランス属性を抽出し、それらの属性をテキストと組み合わせ...
Original: arXiv:2602.08198v1 Announce Type: new Abstract: We present PEGAsus, a new framework capable of generating Personalized 3D shapes by learning shape concepts at both Geometry and Appearance levels. Fir...
生体統計的回帰によるエコー心エコー映像からの左心室駆出分数推定
Generative Regression for Left Ventricular Ejection Fraction Estimation from Echocardiography Video
arXiv:2602.08202v1 Announce Type: new 要約:エコー心エコー画像からの左心室駆出分数(LVEF)の推定は、不適定な逆問題を構成しています。内在するノイズ、アーティファクト、および限られた視角が不確実性を導入しており、単一の動画シークエンスが唯一の真実値にマッピングするのではなく、適切な生理学的値の分布にマッピングする可能性があります。現在通行中の深層学習アプロ...
Original: arXiv:2602.08202v1 Announce Type: new Abstract: Estimating Left Ventricular Ejection Fraction (LVEF) from echocardiograms constitutes an ill-posed inverse problem. Inherent noise, artifacts, and limi...
地理的推論駆動による文脈無視しない遠隔センシングセマンティックセグメンテーション
Geospatial-Reasoning-Driven Vocabulary-Agnostic Remote Sensing Semantic Segmentation
arXiv:2602.08206v1 Announce Type: new 要約: オープンバocabulaireセマンティックセグメンテーションは、遠隔センシングにおける有望な研究分野として台頭し、事前定義されたカテゴリ集を超える多様な土地被覆タイプの認識を可能にしました。しかし、既存の方法は、視覚的特徴とテキスト埋め込みの受動的なマッピングに主に依存しており、この「appearance-ba...
Original: arXiv:2602.08206v1 Announce Type: new Abstract: Open-vocabulary semantic segmentation has emerged as a promising research direction in remote sensing, enabling the recognition of diverse land-cover t...
Chain-of-Caption: 参照表現理解におけるマルチモーダル大規模言語モデルのトレーニングフリー向上
Chain-of-Caption: Training-free improvement of multimodal large language model on referring expression comprehension
arXiv:2602.08211v1 発表種別:新規 要約:テキスト記述が与えられた際、参照表現理解(REC)タスクは参照されているオブジェクトを画像に定位させることを指します。マルチモーダル大規模言語モデル(MLLM)は、モデルサイズとトレーニングデータの拡大によって REC ベンチマークにおいて高い精度を達成しています。さらに、Chain-of-Thought やツール利用などの技術を用いる...
Original: arXiv:2602.08211v1 Announce Type: new Abstract: Given a textual description, the task of referring expression comprehension (REC) involves the localisation of the referred object in an image. Multimo...
Efficient-SAM2: 物体意識的な視覚エンコーディングとメモリ検索による SAM2 の加速
Efficient-SAM2: Accelerating SAM2 with Object-Aware Visual Encoding and Memory Retrieval
arXiv:2602.08224v1 発表 タイプ:新 摘要:Segment Anything Model 2(SAM2)はビデオオブジェクトセグメンテーションタスクにおいて優れた性能を示していますが、計算負荷の重さがリアルタイムビデオ処理への応用を妨げています。SAM2 の効率化に向けた試みは存在しますが、多くは軽量なバックボーンの再訓練に焦点を当てており、トレーニング後の加速への探索は限られ...
Original: arXiv:2602.08224v1 Announce Type: new Abstract: Segment Anything Model 2 (SAM2) shows excellent performance in video object segmentation tasks; however, the heavy computational burden hinders its app...
敵対事的なイベントの生成:モーション感知型ポイントクラウドフレームワーク MA-ADV
Generating Adversarial Events: A Motion-Aware Point Cloud Framework
arXiv:2602.08230v1 Announce Type: new 要旨:イベントカメラは、自律走行車、ロボット工学、そして人間とのインタラクションを含む安全に重要な分野で広く採用されています。深層ニューラルネットワークが敵対事的なサンプルに対して脆弱であるという課題は、イベントベースシステムの信頼性に対する重大な脅威となっています。しかしながら、イベントに対する敵対事的な攻撃に関する研究...
Original: arXiv:2602.08230v1 Announce Type: new Abstract: Event cameras have been widely adopted in safety-critical domains such as autonomous driving, robotics, and human-computer interaction. A pressing chal...