4037 articles
DICE: Diffusion モデルにおけるコントラスト性部分分解を用いた作家スタイルとコンテンツの分離
DICE: Disentangling Artist Style from Content via Contrastive Subspace Decomposition in Diffusion Models
論文: arXiv:2602.08059v1 発表タイプ: new 要約: 最近のディフュージョンモデルの普及により、スタイルの模倣が容易になり、許可なく独自の芸術スタイルを模倣できるようになりました。デプロイされたプラットフォームでは、これは著作権および知的財産のリスクを高め、信頼性の高い保護を求めています。しかし、既存の対策は、新しいスタイルが登場する際に高価な重み編集が必要だったり、明示的...
Original: arXiv:2602.08059v1 Announce Type: new Abstract: The recent proliferation of diffusion models has made style mimicry effortless, enabling users to imitate unique artistic styles without authorization....
ReRoPE: RoPE を再利用した相対カメラ制御
ReRoPE: Repurposing RoPE for Relative Camera Control
arXiv:2602.08068v1 発表型: 新しい 要旨: 制御可能なカメラアングルを持つ動画生成は、インタラクティブコンテンツ作成、ゲーム、シミュレーションなどのアプリケーションにおいて不可欠である。既存の手法では、事前に学習済み動画モデルが、固定された参照(例: 最初のフレーム)に対して定義されたカメラポーズをベースに適応させるようになっている。しかし、これらのエンコーディングはシフト不変...
Original: arXiv:2602.08068v1 Announce Type: new Abstract: Video generation with controllable camera viewpoints is essential for applications such as interactive content creation, gaming, and simulation. Existi...
ViT-5:現代中期の 2020 年代向けヴィジョントランスフォーマー
ViT-5: Vision Transformers for The Mid-2020s
arXiv:2602.08071v1 発表タイプ:新規 本稿では、過去 5 年間のアーキテクチャ進歩を活かし、現代のヴィジョントランスフォーマー(ViT)をシステム的に近代化することを実証した。画一的な「Attention-FFN」構造を保ちつつ、ノーマライゼーション、活性化関数、位置エンコーディング、ゲート機構、そして学習可能なトークンといったコンポーネント単位で微調整を行った。これらの更新は、...
Original: arXiv:2602.08071v1 Announce Type: new Abstract: This work presents a systematic investigation into modernizing Vision Transformer backbones by leveraging architectural advancements from the past five...
VidVec: ビデオ MLLM エンベディングの解放によるビデオ・テキスト検索
VidVec: Unlocking Video MLLM Embeddings for Video-Text Retrieval
arXiv:2602.08099v1 Announcement Type: new Abstract: 最近の研究は、生成型マルチモーダル大規模言語モデル (MLLM) をビジョンタスク用のエンベディング抽出器に適応させ、通常は汎用的表現を生成するために微調整を行っています。しかし、それらはビデオタスクにおけるパフォーマンスはビデオファウンデーションモデル (VFM) に劣ります。本論文では、ML...
Original: arXiv:2602.08099v1 Announce Type: new Abstract: Recent studies have adapted generative Multimodal Large Language Models (MLLMs) into embedding extractors for vision tasks, typically through fine-tuni...
MMLSv2:遠隔観測画像における火星地滑の検出のためのマルチモーダルデータセット
MMLSv2: A Multimodal Dataset for Martian Landslide Detection in Remote Sensing Imagery
arXiv:2602.08112v1 発表種別:新規 要約:火星表面における地滑のセグメンテーション用データセットである MMLSv2 を提示します。MMLSv2 は RGB、デジタル標高モデル、傾斜、熱慣性、およびグレイスケールチャネルの 7 バンドを含むマルチモーダル画像で構成されています。このデータセットには、トレーニング、検証、テストの分割にわたって分布する 664 枚の画像が含まれていま...
Original: arXiv:2602.08112v1 Announce Type: new Abstract: We present MMLSv2, a dataset for landslide segmentation on Martian surfaces. MMLSv2 consists of multimodal imagery with seven bands: RGB, digital eleva...
パッチベースのトランスフォーマー法を用いた衛星画像による建物被害検出
Building Damage Detection using Satellite Images and Patch-Based Transformer Methods
arXiv:2602.08117v1 Announce Type: new 本文書は、被災後の対応において迅速な建物被害の評価が極めて重要であるとともに、衛星画像上に構築された被害分類モデルが状況認識を可能な限りスケーラブルにする手段を提供することを説明する。しかし、衛星データにおけるラベルノイズと深刻なクラスアンバランスは主要な課題となっている。xrd データセットは、多様な地理的領域における建...
Original: arXiv:2602.08117v1 Announce Type: new Abstract: Rapid building damage assessment is critical for post-disaster response. Damage classification models built on satellite imagery provide a scalable mea...
MambaFusion: 多重モーダル 3D 物体検知のための適応型状態空間融合
MambaFusion: Adaptive State-Space Fusion for Multimodal 3D Object Detection
arXiv:2602.08126v1 発表タイプ:新規 要約:信頼性の高い 3D 物体検知は自律型車両の基盤であり、カメラと LiDAR を使用する多重モーダル融合アルゴリズムは依然として大きな課題です。カメラは密度の高い視覚情報を提供しますが、深度の推定は不確定性が高く、LiDAR は正確な 3D 構造を提供しますが、データの分布が偏っているという課題があります。既存の BEV ベースの融合フ...
Original: arXiv:2602.08126v1 Announce Type: new Abstract: Reliable 3D object detection is fundamental to autonomous driving, and multimodal fusion algorithms using cameras and LiDAR remain a persistent challen...
世界のフィールド:農地境界の抽出のためのフィールドガイド
Fields of The World: A Field Guide for Extracting Agricultural Field Boundaries
arXiv:2602.08131v1 Announce Type: new アブストラクト:農地境界マップは農業データ産品の基礎的な要素であり、作物のモニタリング、収量推定、病害推定をサポートしています。このチュートリアルでは、160 万の農地ポリゴンが 24 カ国にわたって含まれるベンチマーク、事前トレーニングされたセグメンテーションモデル、およびコマンドライン推論ツールから構成される Fiel...
Original: arXiv:2602.08131v1 Announce Type: new Abstract: Field boundary maps are a building block for agricultural data products and support crop monitoring, yield estimation, and disease estimation. This tut...
分割画像による悪意のある入力攻撃に対する視覚言語モデルの頑健性
Robustness of Vision Language Models Against Split-Image Harmful Input Attacks
arXiv:2602.08136v1 発表 タイプ:新規 本文書において、我々は視覚言語モデル(VLM)における新たな脆弱性を特定します。VLM の前訓練およびインストラクションチューニングは分割画像の入力に対して非常に汎化性能が高いことが知られていますが、安全アライメント(Safety Alignment)は通常、ホリスティック(全体の)画像に対してのみ行われ、複数の画像断片に分散して配置された...
Original: arXiv:2602.08136v1 Announce Type: new Abstract: Vision-Language Models (VLMs) are now a core part of modern AI. Recent work proposed several visual jailbreak attacks using single/ holistic images. Ho...
DAS-SK: 農業のセマンティックセグメンテーションに適応する二重アトロス可分離および選択核 CNN を統合した軽量モデル
DAS-SK: An Adaptive Model Integrating Dual Atrous Separable and Selective Kernel CNN for Agriculture Semantic Segmentation
arXiv:2602.08168v1 発表タイプ:新 抽出: 高解像度の農業画像におけるセマンティックセグメンテーションは、実用システムへの展開を可能にするためには、精度と計算効率のバランスを慎重に調整する必要がある。本研究では、多スケール特徴量の学習を強化するために選択核畳み込み(SK-Conv)を二重アトロス可分離畳み込み(DAS-Conv)モジュールに統合した、新しい軽量アーキテクチャである...
Original: arXiv:2602.08168v1 Announce Type: new Abstract: Semantic segmentation in high-resolution agricultural imagery demands models that strike a careful balance between accuracy and computational efficienc...
PEGAsus: 幾何形状とアペアーランスの 3D 個人化
PEGAsus: 3D Personalization of Geometry and Appearance
arXiv:2602.08198v1 発表型: 新規 要約: 私たちは、GEOMETRY と APPEARANCE の両方のレベルで形状コンセプトを学習することで、個人化された 3D 形状を生成可能な新しいフレームワーク PEGAsus を提案します。第一に、私たちは 3D 形状の個人化を、参照形状からカテゴリー不感性的な幾何学的およびアペアーランス属性を抽出し、それらの属性をテキストと組み合わせ...
Original: arXiv:2602.08198v1 Announce Type: new Abstract: We present PEGAsus, a new framework capable of generating Personalized 3D shapes by learning shape concepts at both Geometry and Appearance levels. Fir...
生体統計的回帰によるエコー心エコー映像からの左心室駆出分数推定
Generative Regression for Left Ventricular Ejection Fraction Estimation from Echocardiography Video
arXiv:2602.08202v1 Announce Type: new 要約:エコー心エコー画像からの左心室駆出分数(LVEF)の推定は、不適定な逆問題を構成しています。内在するノイズ、アーティファクト、および限られた視角が不確実性を導入しており、単一の動画シークエンスが唯一の真実値にマッピングするのではなく、適切な生理学的値の分布にマッピングする可能性があります。現在通行中の深層学習アプロ...
Original: arXiv:2602.08202v1 Announce Type: new Abstract: Estimating Left Ventricular Ejection Fraction (LVEF) from echocardiograms constitutes an ill-posed inverse problem. Inherent noise, artifacts, and limi...
地理的推論駆動による文脈無視しない遠隔センシングセマンティックセグメンテーション
Geospatial-Reasoning-Driven Vocabulary-Agnostic Remote Sensing Semantic Segmentation
arXiv:2602.08206v1 Announce Type: new 要約: オープンバocabulaireセマンティックセグメンテーションは、遠隔センシングにおける有望な研究分野として台頭し、事前定義されたカテゴリ集を超える多様な土地被覆タイプの認識を可能にしました。しかし、既存の方法は、視覚的特徴とテキスト埋め込みの受動的なマッピングに主に依存しており、この「appearance-ba...
Original: arXiv:2602.08206v1 Announce Type: new Abstract: Open-vocabulary semantic segmentation has emerged as a promising research direction in remote sensing, enabling the recognition of diverse land-cover t...
Chain-of-Caption: 参照表現理解におけるマルチモーダル大規模言語モデルのトレーニングフリー向上
Chain-of-Caption: Training-free improvement of multimodal large language model on referring expression comprehension
arXiv:2602.08211v1 発表種別:新規 要約:テキスト記述が与えられた際、参照表現理解(REC)タスクは参照されているオブジェクトを画像に定位させることを指します。マルチモーダル大規模言語モデル(MLLM)は、モデルサイズとトレーニングデータの拡大によって REC ベンチマークにおいて高い精度を達成しています。さらに、Chain-of-Thought やツール利用などの技術を用いる...
Original: arXiv:2602.08211v1 Announce Type: new Abstract: Given a textual description, the task of referring expression comprehension (REC) involves the localisation of the referred object in an image. Multimo...
Efficient-SAM2: 物体意識的な視覚エンコーディングとメモリ検索による SAM2 の加速
Efficient-SAM2: Accelerating SAM2 with Object-Aware Visual Encoding and Memory Retrieval
arXiv:2602.08224v1 発表 タイプ:新 摘要:Segment Anything Model 2(SAM2)はビデオオブジェクトセグメンテーションタスクにおいて優れた性能を示していますが、計算負荷の重さがリアルタイムビデオ処理への応用を妨げています。SAM2 の効率化に向けた試みは存在しますが、多くは軽量なバックボーンの再訓練に焦点を当てており、トレーニング後の加速への探索は限られ...
Original: arXiv:2602.08224v1 Announce Type: new Abstract: Segment Anything Model 2 (SAM2) shows excellent performance in video object segmentation tasks; however, the heavy computational burden hinders its app...
敵対事的なイベントの生成:モーション感知型ポイントクラウドフレームワーク MA-ADV
Generating Adversarial Events: A Motion-Aware Point Cloud Framework
arXiv:2602.08230v1 Announce Type: new 要旨:イベントカメラは、自律走行車、ロボット工学、そして人間とのインタラクションを含む安全に重要な分野で広く採用されています。深層ニューラルネットワークが敵対事的なサンプルに対して脆弱であるという課題は、イベントベースシステムの信頼性に対する重大な脅威となっています。しかしながら、イベントに対する敵対事的な攻撃に関する研究...
Original: arXiv:2602.08230v1 Announce Type: new Abstract: Event cameras have been widely adopted in safety-critical domains such as autonomous driving, robotics, and human-computer interaction. A pressing chal...
When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
arXiv:2602.08236v1 Announce Type: new 摘要:マルチモーダル大型言語モデル (MLLM) の急速な進展に伴い、画像空間推論の精度は、未視覚や代替視点から見たシーンに依存する正解の場合に依然として信頼性不足にあります。最近の研究では、画像の想像力を世界モデル(World Models)に組み込むことでこの問題を解決しようとしていますが、想像力が本当に必要なタイミン...
Original: arXiv:2602.08236v1 Announce Type: new Abstract: Despite rapid progress in Multimodal Large Language Models (MLLMs), visual spatial reasoning remains unreliable when correct answers depend on how a sc...
機能的結合を超えた:fMRI による脳障害分類のための時系列モデル
Moving Beyond Functional Connectivity: Time-Series Modeling for fMRI-Based Brain Disorder Classification
arXiv:2602.08262v1 Announce Type: new 機能的磁気共鳴画像法(fMRI)は、血液酸素レベル依存的(BOLD)信号を捉えることで、侵入性の少ない脳障害分類を可能にしています。しかし、既存の多くの方法は、ピアソン相関を用いた機能的結合(FC)に依存しており、4D BOLD 信号を静態の 2D マトリックスに削減し、時系列のダイナミクスを失いつつ、直線的な域間関係を...
Original: arXiv:2602.08262v1 Announce Type: new Abstract: Functional magnetic resonance imaging (fMRI) enables non-invasive brain disorder classification by capturing blood-oxygen-level-dependent (BOLD) signal...
PISCO: スパース制御による正確な動画インスタンス挿入
PISCO: Precise Video Instance Insertion with Sparse Control
arXiv:2602.08277v1 Announce Type: new 【要旨】AI 動画生成の景観は決定的な転換期にあります。汎用的な生成(大規模プロンプトエンジニアリングや「イチオシ」選択に依存)を越え、微細な制御性を持ち、高い忠実度を備えたポストプロダクションへと移行するのです。プロフェッショナルな AI 支援映画制作において、正確なターゲット指向の変更可は極めて重要です。この転換期の...
Original: arXiv:2602.08277v1 Announce Type: new Abstract: The landscape of AI video generation is undergoing a pivotal shift: moving beyond general generation - which relies on exhaustive prompt-engineering an...
Tighnari v2: マルチモーダル植物分布予測におけるラベルノイズと分布シフトの緩和: 混合 experts と弱监督和 learnings の活用
Tighnari v2: Mitigating Label Noise and Distribution Shift in Multimodal Plant Distribution Prediction via Mixture of Experts and Weakly Supervised Learning
arXiv:2602.08282v1 Announce Type: new Abstract: 大規模かつ種を超えた植物分布の予測は生物多様性の保全において重要な役割を果たしますが、観測データの希少性とバイアスにより、この分野でのモデル構築は依然として大きな課題に直面しています。存在 - 欠如(PA)データは正確でノイズフリーなラベルを提供しますが、収集コストが高く数量が限られています。一方、存在...
Original: arXiv:2602.08282v1 Announce Type: new Abstract: Large-scale, cross-species plant distribution prediction plays a crucial role in biodiversity conservation, yet modeling efforts in this area still fac...