12673 articles

arxiv_cs_cv 2026/2/10

MMLSv2:遠隔観測画像における火星地滑の検出のためのマルチモーダルデータセット

MMLSv2: A Multimodal Dataset for Martian Landslide Detection in Remote Sensing Imagery

arXiv:2602.08112v1 発表種別:新規 要約:火星表面における地滑のセグメンテーション用データセットである MMLSv2 を提示します。MMLSv2 は RGB、デジタル標高モデル、傾斜、熱慣性、およびグレイスケールチャネルの 7 バンドを含むマルチモーダル画像で構成されています。このデータセットには、トレーニング、検証、テストの分割にわたって分布する 664 枚の画像が含まれていま...

Original: arXiv:2602.08112v1 Announce Type: new Abstract: We present MMLSv2, a dataset for landslide segmentation on Martian surfaces. MMLSv2 consists of multimodal imagery with seven bands: RGB, digital eleva...

arxiv_cs_cv 2026/2/10

パッチベースのトランスフォーマー法を用いた衛星画像による建物被害検出

Building Damage Detection using Satellite Images and Patch-Based Transformer Methods

arXiv:2602.08117v1 Announce Type: new 本文書は、被災後の対応において迅速な建物被害の評価が極めて重要であるとともに、衛星画像上に構築された被害分類モデルが状況認識を可能な限りスケーラブルにする手段を提供することを説明する。しかし、衛星データにおけるラベルノイズと深刻なクラスアンバランスは主要な課題となっている。xrd データセットは、多様な地理的領域における建...

Original: arXiv:2602.08117v1 Announce Type: new Abstract: Rapid building damage assessment is critical for post-disaster response. Damage classification models built on satellite imagery provide a scalable mea...

arxiv_cs_cv 2026/2/10

MambaFusion: 多重モーダル 3D 物体検知のための適応型状態空間融合

MambaFusion: Adaptive State-Space Fusion for Multimodal 3D Object Detection

arXiv:2602.08126v1 発表タイプ:新規 要約:信頼性の高い 3D 物体検知は自律型車両の基盤であり、カメラと LiDAR を使用する多重モーダル融合アルゴリズムは依然として大きな課題です。カメラは密度の高い視覚情報を提供しますが、深度の推定は不確定性が高く、LiDAR は正確な 3D 構造を提供しますが、データの分布が偏っているという課題があります。既存の BEV ベースの融合フ...

Original: arXiv:2602.08126v1 Announce Type: new Abstract: Reliable 3D object detection is fundamental to autonomous driving, and multimodal fusion algorithms using cameras and LiDAR remain a persistent challen...

arxiv_cs_cv 2026/2/10

世界のフィールド:農地境界の抽出のためのフィールドガイド

Fields of The World: A Field Guide for Extracting Agricultural Field Boundaries

arXiv:2602.08131v1 Announce Type: new アブストラクト:農地境界マップは農業データ産品の基礎的な要素であり、作物のモニタリング、収量推定、病害推定をサポートしています。このチュートリアルでは、160 万の農地ポリゴンが 24 カ国にわたって含まれるベンチマーク、事前トレーニングされたセグメンテーションモデル、およびコマンドライン推論ツールから構成される Fiel...

Original: arXiv:2602.08131v1 Announce Type: new Abstract: Field boundary maps are a building block for agricultural data products and support crop monitoring, yield estimation, and disease estimation. This tut...

arxiv_cs_cv 2026/2/10

分割画像による悪意のある入力攻撃に対する視覚言語モデルの頑健性

Robustness of Vision Language Models Against Split-Image Harmful Input Attacks

arXiv:2602.08136v1 発表 タイプ:新規 本文書において、我々は視覚言語モデル(VLM)における新たな脆弱性を特定します。VLM の前訓練およびインストラクションチューニングは分割画像の入力に対して非常に汎化性能が高いことが知られていますが、安全アライメント(Safety Alignment)は通常、ホリスティック(全体の)画像に対してのみ行われ、複数の画像断片に分散して配置された...

Original: arXiv:2602.08136v1 Announce Type: new Abstract: Vision-Language Models (VLMs) are now a core part of modern AI. Recent work proposed several visual jailbreak attacks using single/ holistic images. Ho...

arxiv_cs_cv 2026/2/10

DAS-SK: 農業のセマンティックセグメンテーションに適応する二重アトロス可分離および選択核 CNN を統合した軽量モデル

DAS-SK: An Adaptive Model Integrating Dual Atrous Separable and Selective Kernel CNN for Agriculture Semantic Segmentation

arXiv:2602.08168v1 発表タイプ:新 抽出: 高解像度の農業画像におけるセマンティックセグメンテーションは、実用システムへの展開を可能にするためには、精度と計算効率のバランスを慎重に調整する必要がある。本研究では、多スケール特徴量の学習を強化するために選択核畳み込み(SK-Conv)を二重アトロス可分離畳み込み(DAS-Conv)モジュールに統合した、新しい軽量アーキテクチャである...

Original: arXiv:2602.08168v1 Announce Type: new Abstract: Semantic segmentation in high-resolution agricultural imagery demands models that strike a careful balance between accuracy and computational efficienc...

arxiv_cs_cv 2026/2/10

PEGAsus: 幾何形状とアペアーランスの 3D 個人化

PEGAsus: 3D Personalization of Geometry and Appearance

arXiv:2602.08198v1 発表型: 新規 要約: 私たちは、GEOMETRY と APPEARANCE の両方のレベルで形状コンセプトを学習することで、個人化された 3D 形状を生成可能な新しいフレームワーク PEGAsus を提案します。第一に、私たちは 3D 形状の個人化を、参照形状からカテゴリー不感性的な幾何学的およびアペアーランス属性を抽出し、それらの属性をテキストと組み合わせ...

Original: arXiv:2602.08198v1 Announce Type: new Abstract: We present PEGAsus, a new framework capable of generating Personalized 3D shapes by learning shape concepts at both Geometry and Appearance levels. Fir...

arxiv_cs_cv 2026/2/10

生体統計的回帰によるエコー心エコー映像からの左心室駆出分数推定

Generative Regression for Left Ventricular Ejection Fraction Estimation from Echocardiography Video

arXiv:2602.08202v1 Announce Type: new 要約:エコー心エコー画像からの左心室駆出分数(LVEF)の推定は、不適定な逆問題を構成しています。内在するノイズ、アーティファクト、および限られた視角が不確実性を導入しており、単一の動画シークエンスが唯一の真実値にマッピングするのではなく、適切な生理学的値の分布にマッピングする可能性があります。現在通行中の深層学習アプロ...

Original: arXiv:2602.08202v1 Announce Type: new Abstract: Estimating Left Ventricular Ejection Fraction (LVEF) from echocardiograms constitutes an ill-posed inverse problem. Inherent noise, artifacts, and limi...

arxiv_cs_cv 2026/2/10

地理的推論駆動による文脈無視しない遠隔センシングセマンティックセグメンテーション

Geospatial-Reasoning-Driven Vocabulary-Agnostic Remote Sensing Semantic Segmentation

arXiv:2602.08206v1 Announce Type: new 要約: オープンバocabulaireセマンティックセグメンテーションは、遠隔センシングにおける有望な研究分野として台頭し、事前定義されたカテゴリ集を超える多様な土地被覆タイプの認識を可能にしました。しかし、既存の方法は、視覚的特徴とテキスト埋め込みの受動的なマッピングに主に依存しており、この「appearance-ba...

Original: arXiv:2602.08206v1 Announce Type: new Abstract: Open-vocabulary semantic segmentation has emerged as a promising research direction in remote sensing, enabling the recognition of diverse land-cover t...

arxiv_cs_cv 2026/2/10

Chain-of-Caption: 参照表現理解におけるマルチモーダル大規模言語モデルのトレーニングフリー向上

Chain-of-Caption: Training-free improvement of multimodal large language model on referring expression comprehension

arXiv:2602.08211v1 発表種別:新規 要約:テキスト記述が与えられた際、参照表現理解(REC)タスクは参照されているオブジェクトを画像に定位させることを指します。マルチモーダル大規模言語モデル(MLLM)は、モデルサイズとトレーニングデータの拡大によって REC ベンチマークにおいて高い精度を達成しています。さらに、Chain-of-Thought やツール利用などの技術を用いる...

Original: arXiv:2602.08211v1 Announce Type: new Abstract: Given a textual description, the task of referring expression comprehension (REC) involves the localisation of the referred object in an image. Multimo...

arxiv_cs_cv 2026/2/10

Efficient-SAM2: 物体意識的な視覚エンコーディングとメモリ検索による SAM2 の加速

Efficient-SAM2: Accelerating SAM2 with Object-Aware Visual Encoding and Memory Retrieval

arXiv:2602.08224v1 発表 タイプ:新 摘要:Segment Anything Model 2(SAM2)はビデオオブジェクトセグメンテーションタスクにおいて優れた性能を示していますが、計算負荷の重さがリアルタイムビデオ処理への応用を妨げています。SAM2 の効率化に向けた試みは存在しますが、多くは軽量なバックボーンの再訓練に焦点を当てており、トレーニング後の加速への探索は限られ...

Original: arXiv:2602.08224v1 Announce Type: new Abstract: Segment Anything Model 2 (SAM2) shows excellent performance in video object segmentation tasks; however, the heavy computational burden hinders its app...

arxiv_cs_cv 2026/2/10

敵対事的なイベントの生成:モーション感知型ポイントクラウドフレームワーク MA-ADV

Generating Adversarial Events: A Motion-Aware Point Cloud Framework

arXiv:2602.08230v1 Announce Type: new 要旨:イベントカメラは、自律走行車、ロボット工学、そして人間とのインタラクションを含む安全に重要な分野で広く採用されています。深層ニューラルネットワークが敵対事的なサンプルに対して脆弱であるという課題は、イベントベースシステムの信頼性に対する重大な脅威となっています。しかしながら、イベントに対する敵対事的な攻撃に関する研究...

Original: arXiv:2602.08230v1 Announce Type: new Abstract: Event cameras have been widely adopted in safety-critical domains such as autonomous driving, robotics, and human-computer interaction. A pressing chal...

arxiv_cs_cv 2026/2/10

When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning

arXiv:2602.08236v1 Announce Type: new 摘要:マルチモーダル大型言語モデル (MLLM) の急速な進展に伴い、画像空間推論の精度は、未視覚や代替視点から見たシーンに依存する正解の場合に依然として信頼性不足にあります。最近の研究では、画像の想像力を世界モデル(World Models)に組み込むことでこの問題を解決しようとしていますが、想像力が本当に必要なタイミン...

Original: arXiv:2602.08236v1 Announce Type: new Abstract: Despite rapid progress in Multimodal Large Language Models (MLLMs), visual spatial reasoning remains unreliable when correct answers depend on how a sc...

arxiv_cs_cv 2026/2/10

機能的結合を超えた:fMRI による脳障害分類のための時系列モデル

Moving Beyond Functional Connectivity: Time-Series Modeling for fMRI-Based Brain Disorder Classification

arXiv:2602.08262v1 Announce Type: new 機能的磁気共鳴画像法(fMRI)は、血液酸素レベル依存的(BOLD)信号を捉えることで、侵入性の少ない脳障害分類を可能にしています。しかし、既存の多くの方法は、ピアソン相関を用いた機能的結合(FC)に依存しており、4D BOLD 信号を静態の 2D マトリックスに削減し、時系列のダイナミクスを失いつつ、直線的な域間関係を...

Original: arXiv:2602.08262v1 Announce Type: new Abstract: Functional magnetic resonance imaging (fMRI) enables non-invasive brain disorder classification by capturing blood-oxygen-level-dependent (BOLD) signal...

arxiv_cs_cv 2026/2/10

PISCO: スパース制御による正確な動画インスタンス挿入

PISCO: Precise Video Instance Insertion with Sparse Control

arXiv:2602.08277v1 Announce Type: new 【要旨】AI 動画生成の景観は決定的な転換期にあります。汎用的な生成(大規模プロンプトエンジニアリングや「イチオシ」選択に依存)を越え、微細な制御性を持ち、高い忠実度を備えたポストプロダクションへと移行するのです。プロフェッショナルな AI 支援映画制作において、正確なターゲット指向の変更可は極めて重要です。この転換期の...

Original: arXiv:2602.08277v1 Announce Type: new Abstract: The landscape of AI video generation is undergoing a pivotal shift: moving beyond general generation - which relies on exhaustive prompt-engineering an...

arxiv_cs_cv 2026/2/10

Tighnari v2: マルチモーダル植物分布予測におけるラベルノイズと分布シフトの緩和: 混合 experts と弱监督和 learnings の活用

Tighnari v2: Mitigating Label Noise and Distribution Shift in Multimodal Plant Distribution Prediction via Mixture of Experts and Weakly Supervised Learning

arXiv:2602.08282v1 Announce Type: new Abstract: 大規模かつ種を超えた植物分布の予測は生物多様性の保全において重要な役割を果たしますが、観測データの希少性とバイアスにより、この分野でのモデル構築は依然として大きな課題に直面しています。存在 - 欠如(PA)データは正確でノイズフリーなラベルを提供しますが、収集コストが高く数量が限られています。一方、存在...

Original: arXiv:2602.08282v1 Announce Type: new Abstract: Large-scale, cross-species plant distribution prediction plays a crucial role in biodiversity conservation, yet modeling efforts in this area still fac...

arxiv_cs_cv 2026/2/10

CAE-AV: モーダル間相互作用による音視学習の向上

CAE-AV: Improving Audio-Visual Learning via Cross-modal Interactive Enrichment

arXiv:2602.08309v1 Announce Type: new 摘要: 音視学習は、オフスクリーン源やバックグラウンドの混雑によって生じるモーダルミスマッチに悩まされており、現在の手法は不要な領域や瞬間を増幅することで、不安定な訓練と品質低下を引き起こします。この課題に対処するために、音視学習のために Caption-aligned と Agreement-guided Enhanc...

Original: arXiv:2602.08309v1 Announce Type: new Abstract: Audio-visual learning suffers from modality misalignment caused by off-screen sources and background clutter, and current methods usually amplify irrel...

arxiv_cs_cv 2026/2/10

人間動作生成のための言語ガイド付きトランスフォーマートークナイザー

Language-Guided Transformer Tokenizer for Human Motion Generation

arXiv:2602.08337v1 発表型:新規 要旨:本論文では、生動作データを効率的な動作生成のために不可欠であるコンパクトな離散トークンに変換する動作離散化トークナイザーに焦点を当てています。このパラダイムにおいて、動作再構築の質を向上させる一般的なアプローチはトークン数の増加ですが、トークンが増えれば増すほど生成モデルの学習が困難になります。高再構築品質を維持しつつ生成複雑性を削減する...

Original: arXiv:2602.08337v1 Announce Type: new Abstract: In this paper, we focus on motion discrete tokenization, which converts raw motion into compact discrete tokens--a process proven crucial for efficient...

arxiv_cs_cv 2026/2/10

UrbanGraphEmbeddings: スペースに裏付けられたマルチモーダルエンベッディングの学習と評価:都市科学のために

UrbanGraphEmbeddings: Learning and Evaluating Spatially Grounded Multimodal Embeddings for Urban Science

arXiv:2602.08342v1 発表タイプ:新規 要旨:都市環境のための汎用マルチモーダルエンベッディングの学習は困難です。なぜなら都市理解は本質的に空間的であるにもかかわらず、既存のデータセットやベンチマークには、街並み画像と都市構造との明示的な整合性が欠如しているからです。本研究では、街並み画像を構造化された空間グラフにアンカーし、空間推論パスや空間的文脈キャプションを通じて距離性、方...

Original: arXiv:2602.08342v1 Announce Type: new Abstract: Learning transferable multimodal embeddings for urban environments is challenging because urban understanding is inherently spatial, yet existing datas...

arxiv_cs_cv 2026/2/10

What, Whether and How? Process Reward Models for Thinking with Images Reasoning を解き明かす

What, Whether and How? Unveiling Process Reward Models for Thinking with Images Reasoning

arXiv:2602.08346v1 Announce Type: new 摘要:大規模ビジョン・言語モデル(LVLMs)の急成長により、様々な視覚タスクにおける優れた能力が示されています。これらの発展を基盤とした「イメージ付き思考(thinking with images)」のパラドラムが出現し、モデルは推論の各ステップで視覚情報を動的に編集・再符号化することで、人間の視覚処理を模倣しています。...

Original: arXiv:2602.08346v1 Announce Type: new Abstract: The rapid advancement of Large Vision Language Models (LVLMs) has demonstrated excellent abilities in various visual tasks. Building upon these develop...