12901 articles
When and How Much to Imagine: Adaptive Test-Time Scaling with World Models for Visual Spatial Reasoning
arXiv:2602.08236v1 Announce Type: new 摘要:マルチモーダル大型言語モデル (MLLM) の急速な進展に伴い、画像空間推論の精度は、未視覚や代替視点から見たシーンに依存する正解の場合に依然として信頼性不足にあります。最近の研究では、画像の想像力を世界モデル(World Models)に組み込むことでこの問題を解決しようとしていますが、想像力が本当に必要なタイミン...
Original: arXiv:2602.08236v1 Announce Type: new Abstract: Despite rapid progress in Multimodal Large Language Models (MLLMs), visual spatial reasoning remains unreliable when correct answers depend on how a sc...
機能的結合を超えた:fMRI による脳障害分類のための時系列モデル
Moving Beyond Functional Connectivity: Time-Series Modeling for fMRI-Based Brain Disorder Classification
arXiv:2602.08262v1 Announce Type: new 機能的磁気共鳴画像法(fMRI)は、血液酸素レベル依存的(BOLD)信号を捉えることで、侵入性の少ない脳障害分類を可能にしています。しかし、既存の多くの方法は、ピアソン相関を用いた機能的結合(FC)に依存しており、4D BOLD 信号を静態の 2D マトリックスに削減し、時系列のダイナミクスを失いつつ、直線的な域間関係を...
Original: arXiv:2602.08262v1 Announce Type: new Abstract: Functional magnetic resonance imaging (fMRI) enables non-invasive brain disorder classification by capturing blood-oxygen-level-dependent (BOLD) signal...
PISCO: スパース制御による正確な動画インスタンス挿入
PISCO: Precise Video Instance Insertion with Sparse Control
arXiv:2602.08277v1 Announce Type: new 【要旨】AI 動画生成の景観は決定的な転換期にあります。汎用的な生成(大規模プロンプトエンジニアリングや「イチオシ」選択に依存)を越え、微細な制御性を持ち、高い忠実度を備えたポストプロダクションへと移行するのです。プロフェッショナルな AI 支援映画制作において、正確なターゲット指向の変更可は極めて重要です。この転換期の...
Original: arXiv:2602.08277v1 Announce Type: new Abstract: The landscape of AI video generation is undergoing a pivotal shift: moving beyond general generation - which relies on exhaustive prompt-engineering an...
Tighnari v2: マルチモーダル植物分布予測におけるラベルノイズと分布シフトの緩和: 混合 experts と弱监督和 learnings の活用
Tighnari v2: Mitigating Label Noise and Distribution Shift in Multimodal Plant Distribution Prediction via Mixture of Experts and Weakly Supervised Learning
arXiv:2602.08282v1 Announce Type: new Abstract: 大規模かつ種を超えた植物分布の予測は生物多様性の保全において重要な役割を果たしますが、観測データの希少性とバイアスにより、この分野でのモデル構築は依然として大きな課題に直面しています。存在 - 欠如(PA)データは正確でノイズフリーなラベルを提供しますが、収集コストが高く数量が限られています。一方、存在...
Original: arXiv:2602.08282v1 Announce Type: new Abstract: Large-scale, cross-species plant distribution prediction plays a crucial role in biodiversity conservation, yet modeling efforts in this area still fac...
CAE-AV: モーダル間相互作用による音視学習の向上
CAE-AV: Improving Audio-Visual Learning via Cross-modal Interactive Enrichment
arXiv:2602.08309v1 Announce Type: new 摘要: 音視学習は、オフスクリーン源やバックグラウンドの混雑によって生じるモーダルミスマッチに悩まされており、現在の手法は不要な領域や瞬間を増幅することで、不安定な訓練と品質低下を引き起こします。この課題に対処するために、音視学習のために Caption-aligned と Agreement-guided Enhanc...
Original: arXiv:2602.08309v1 Announce Type: new Abstract: Audio-visual learning suffers from modality misalignment caused by off-screen sources and background clutter, and current methods usually amplify irrel...
人間動作生成のための言語ガイド付きトランスフォーマートークナイザー
Language-Guided Transformer Tokenizer for Human Motion Generation
arXiv:2602.08337v1 発表型:新規 要旨:本論文では、生動作データを効率的な動作生成のために不可欠であるコンパクトな離散トークンに変換する動作離散化トークナイザーに焦点を当てています。このパラダイムにおいて、動作再構築の質を向上させる一般的なアプローチはトークン数の増加ですが、トークンが増えれば増すほど生成モデルの学習が困難になります。高再構築品質を維持しつつ生成複雑性を削減する...
Original: arXiv:2602.08337v1 Announce Type: new Abstract: In this paper, we focus on motion discrete tokenization, which converts raw motion into compact discrete tokens--a process proven crucial for efficient...
UrbanGraphEmbeddings: スペースに裏付けられたマルチモーダルエンベッディングの学習と評価:都市科学のために
UrbanGraphEmbeddings: Learning and Evaluating Spatially Grounded Multimodal Embeddings for Urban Science
arXiv:2602.08342v1 発表タイプ:新規 要旨:都市環境のための汎用マルチモーダルエンベッディングの学習は困難です。なぜなら都市理解は本質的に空間的であるにもかかわらず、既存のデータセットやベンチマークには、街並み画像と都市構造との明示的な整合性が欠如しているからです。本研究では、街並み画像を構造化された空間グラフにアンカーし、空間推論パスや空間的文脈キャプションを通じて距離性、方...
Original: arXiv:2602.08342v1 Announce Type: new Abstract: Learning transferable multimodal embeddings for urban environments is challenging because urban understanding is inherently spatial, yet existing datas...
What, Whether and How? Process Reward Models for Thinking with Images Reasoning を解き明かす
What, Whether and How? Unveiling Process Reward Models for Thinking with Images Reasoning
arXiv:2602.08346v1 Announce Type: new 摘要:大規模ビジョン・言語モデル(LVLMs)の急成長により、様々な視覚タスクにおける優れた能力が示されています。これらの発展を基盤とした「イメージ付き思考(thinking with images)」のパラドラムが出現し、モデルは推論の各ステップで視覚情報を動的に編集・再符号化することで、人間の視覚処理を模倣しています。...
Original: arXiv:2602.08346v1 Announce Type: new Abstract: The rapid advancement of Large Vision Language Models (LVLMs) has demonstrated excellent abilities in various visual tasks. Building upon these develop...
E-VAds: MLLMs 向けの EC ショップ動画理解ベンチマーク
E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs
arXiv:2602.08355v1 Announce Type: new 要旨: EC ショップ動画は、目的志向フォーマットと高密なマルチモーダル信号を特徴とするオンライン動画業界において高い収益性を示すセグメントである。既存のモデルは、一般目的のタスクに焦点を当てたベンチマークが商業的意図の推論を無視しているため、こうした動画においてしばしば困難さを味わう。本稿では、まずこのドメインの複雑性...
Original: arXiv:2602.08355v1 Announce Type: new Abstract: E-commerce short videos represent a high-revenue segment of the online video industry characterized by a goal-driven format and dense multi-modal signa...
ディフューン変換器を用いたエフェクト感応型コンテキスト内インパントによる幾何学的画像編集
Geometric Image Editing via Effects-Sensitive In-Context Inpainting with Diffusion Transformers
arXiv:2602.08388v1 Announce Type: new Abstract: 最近、ディフューションモデルの進展によって画像編集が大幅に改善されました。しかし、移動、回転、スケーリングのような幾何学的変換の処理には依然として課題が残っています。特に複雑なシーンでは、既存のアプローチは 2 つの主要な制限に苦しんでいます:(1) オブジェクトの移動、回転、スケーリングの幾何学的編集...
Original: arXiv:2602.08388v1 Announce Type: new Abstract: Recent advances in diffusion models have significantly improved image editing. However, challenges persist in handling geometric transformations, such ...
D$^2$-VR: 複合最適化戦略による耐減衰・ディストillation 動画修復
D$^2$-VR: Degradation-Robust and Distilled Video Restoration with Synergistic Optimization Strategy
arXiv:2602.08395v1 発表タイプ:新規 本文: 拡散事前情報と時系列整合を組み合わせたパラダイムが、動画修復において画質を劇的に向上させると同時に、複雑な実世界の減衰に直面した際の推論遅延の禁止性と時系列不安定さを引き起こす問題に直面している。この限界を解消するために、我々は低ステップ推論を備えた単画像拡散ベースの動画修復枠ワークである **D$^2$-VR** を提案した。激しい...
Original: arXiv:2602.08395v1 Announce Type: new Abstract: The integration of diffusion priors with temporal alignment has emerged as a transformative paradigm for video restoration, delivering fantastic percep...
RealSynCol: 3D 再構築アプリケーション用の高忠実度合成大腸データセット
RealSynCol: a high-fidelity synthetic colon dataset for 3D reconstruction applications
arXiv:2602.08397v1 発表タイプ:新規 要旨:深層学習は、大腸の 3D 再構築を可能にすることで、大腸の粘膜表面や病変の包括的なビューを提供し、未調査領域の特定を容易にし、胃鏡検査の向上に潜在的な能力を持っている。しかし、頑健な手法の開発は、大規模な真の値データの不足に制限されている。私たちは、内視鏡環境を複製することを目的とした、非常にリアリストックな合成データセット RealS...
Original: arXiv:2602.08397v1 Announce Type: new Abstract: Deep learning has the potential to improve colonoscopy by enabling 3D reconstruction of the colon, providing a comprehensive view of mucosal surfaces a...
多様な局所特徴のための注意ベースのスパースマッチングの理解と最適化
Understanding and Optimizing Attention-Based Sparse Matching for Diverse Local Features
arXiv:2602.08430v1 Announce Type: new 要約: 私たちは、多様な局所特徴に対する注意ベースのスパースイメージマッチングモデルの訓練に関する問題を見直しました。まず、LightGlue モデルのパフォーマンスに著しい影響を与える、以前見過ごされ続けていた重要な設計選択を特定しました。次に、トランスフォーマーベースのマッチングフレームワークにおける検出器と記述子(d...
Original: arXiv:2602.08430v1 Announce Type: new Abstract: We revisit the problem of training attention-based sparse image matching models for various local features. We first identify one critical design choic...
Demo-ICL: プロシージャルビデオの知識習得のための文脈内学習
Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition
arXiv:2602.08439v1 発表タイプ:新しい 要旨:最近のマルチモーダル大規模言語モデル(MLLM)の動画理解能力は急速に向上しているにもかかわらず、既存の動画ベンチマークはモデルが動的かつ新しい文脈から少数の例によって学習・適応できる能力ではなく、モデルが保有する静的内部知識に基づいて評価する傾向にあり、このギャップを埋めるため、当論文では文脈内デモンストレーションから学習し、対象動...
Original: arXiv:2602.08439v1 Announce Type: new Abstract: Despite the growing video understanding capabilities of recent Multimodal Large Language Models (MLLMs), existing video benchmarks primarily assess und...
Vista: Post-Hoc クエリ条件下のストリーミング動画質問応答におけるシーンの認識最適化
Vista: Scene-Aware Optimization for Streaming Video Question Answering under Post-Hoc Queries
arXiv:2602.08448v1 発表タイプ: 新しい 要約:ストリーミング動画質問応答(Streaming Video QA)は、マルチモーダル大規模言語モデル(MLLM)に対して特異な課題を提起します。ビデオフレームが順次到着し、ユーザーのクエリが任意のタイミングで発行されるためです。既存の固定サイズメモリや単純な圧縮に依存する手法は、文脈の損失やメモリ超過を引き起こし、長時間の実時間シナ...
Original: arXiv:2602.08448v1 Announce Type: new Abstract: Streaming video question answering (Streaming Video QA) poses distinct challenges for multimodal large language models (MLLMs), as video frames arrive ...
TriC-Motion: 空間・時間・周波数ドメインの因果モデリングに基づくテキストツーモーション生成
TriC-Motion: Tri-Domain Causal Modeling Grounded Text-to-Motion Generation
arXiv:2602.08462v1 Announce Type: new 摘要: テキストツーモーション生成は、コンピュータビジョンの急速に進化している分野で、リアルチックでテキストに整合した運動シーケンスを生成することを目指しています。現在の手法は、主に空間時間モデリングや独立した周波数ドメイン分析に焦点を当てており、空間、時間、周波数ドメイン全体で連動した最適化のための統一的な枠組みが欠如し...
Original: arXiv:2602.08462v1 Announce Type: new Abstract: Text-to-motion generation, a rapidly evolving field in computer vision, aims to produce realistic and text-aligned motion sequences. Current methods pr...
ジェストが重要だ:自動運転車の AV における骨架解析に基づく歩行者ジェスト認識
Gesture Matters: Pedestrian Gesture Recognition for AVs Through Skeleton Pose Evaluation
arXiv:2602.08479v1 発表タイプ:新しい 要約:ジェストは、公式な交通法規が不十分な場合に歩行者とドライバーの相互作用を助ける、非言語コミュニケーションの重要な要素です。この問題は、自律走行車(AV)が此类ジェストを解釈するのに struggled するときにより明らかになります。本研究では、WIVW データセットから得られた実際のビデオシーケンスに適用した 2D ポーズ推定を用い...
Original: arXiv:2602.08479v1 Announce Type: new Abstract: Gestures are a key component of non-verbal communication in traffic, often helping pedestrian-to-driver interactions when formal traffic rules may be i...
照明によるドメインシフト下における強化された食品カテゴリ認識
Enhanced Food Category Recognition under Illumination-Induced Domain Shift
arXiv:2602.08491v1 Announce Type: new Abstract: 自動ベルト検査のような実環境に展開された視覚食品認識システムは、照明変化によるドメインシフトに非常に敏感です。最近の研究で、照明の変化が人間および AI による食品認識を大きく歪ませることは示されていますが、既存の研究は単一の食品カテゴリや制御された環境に限定されており、多くの公開食品データセットには照...
Original: arXiv:2602.08491v1 Announce Type: new Abstract: Visual food recognition systems deployed in real-world environments, such as automated conveyor-belt inspection, are highly sensitive to domain shifts ...
ロールアウト増強によるビジョン・言語モデルにおける自己修正学習
Learning Self-Correction in Vision-Language Models via Rollout Augmentation
arXiv:2602.08503v1 Announce Type: new 要旨:自己修正は、ビジョン・言語モデル(VLM)の複雑な推理問題の解決において不可欠です。しかし、既存の強化学習(RL)手法は、自己修正行動が極めて稀にのみ出現するため、学習シグナルが極端に疎であることに失敗しています。この課題に対処するため、私たちは既存のロールアウトを再組み合わせることで、高密度な自己修正例を合成する ...
Original: arXiv:2602.08503v1 Announce Type: new Abstract: Self-correction is essential for solving complex reasoning problems in vision-language models (VLMs). However, existing reinforcement learning (RL) met...
電子顕微鏡画像分割において、ビジョンファウンデーションモデルは基礎的役割を果たしているのか?
Are Vision Foundation Models Foundational for Electron Microscopy Image Segmentation?
arXiv:2602.08505v1 Announce Type: new 本文書は、ビジョンファウンデーションモデル(VFMs)が増加する頻度で生物医学画像解析に再使用されるにもかかわらず、それらが提供 latent representation が異質な顕微鏡画像データセット間で効果的な転送と再使用を支援するために十分普遍的であるかどうかという問題を、電子顕微鏡(EM)画像におけるミトコンドリ...
Original: arXiv:2602.08505v1 Announce Type: new Abstract: Although vision foundation models (VFMs) are increasingly reused for biomedical image analysis, it remains unclear whether the latent representations t...