4037 articles
CAE-AV: モーダル間相互作用による音視学習の向上
CAE-AV: Improving Audio-Visual Learning via Cross-modal Interactive Enrichment
arXiv:2602.08309v1 Announce Type: new 摘要: 音視学習は、オフスクリーン源やバックグラウンドの混雑によって生じるモーダルミスマッチに悩まされており、現在の手法は不要な領域や瞬間を増幅することで、不安定な訓練と品質低下を引き起こします。この課題に対処するために、音視学習のために Caption-aligned と Agreement-guided Enhanc...
Original: arXiv:2602.08309v1 Announce Type: new Abstract: Audio-visual learning suffers from modality misalignment caused by off-screen sources and background clutter, and current methods usually amplify irrel...
人間動作生成のための言語ガイド付きトランスフォーマートークナイザー
Language-Guided Transformer Tokenizer for Human Motion Generation
arXiv:2602.08337v1 発表型:新規 要旨:本論文では、生動作データを効率的な動作生成のために不可欠であるコンパクトな離散トークンに変換する動作離散化トークナイザーに焦点を当てています。このパラダイムにおいて、動作再構築の質を向上させる一般的なアプローチはトークン数の増加ですが、トークンが増えれば増すほど生成モデルの学習が困難になります。高再構築品質を維持しつつ生成複雑性を削減する...
Original: arXiv:2602.08337v1 Announce Type: new Abstract: In this paper, we focus on motion discrete tokenization, which converts raw motion into compact discrete tokens--a process proven crucial for efficient...
UrbanGraphEmbeddings: スペースに裏付けられたマルチモーダルエンベッディングの学習と評価:都市科学のために
UrbanGraphEmbeddings: Learning and Evaluating Spatially Grounded Multimodal Embeddings for Urban Science
arXiv:2602.08342v1 発表タイプ:新規 要旨:都市環境のための汎用マルチモーダルエンベッディングの学習は困難です。なぜなら都市理解は本質的に空間的であるにもかかわらず、既存のデータセットやベンチマークには、街並み画像と都市構造との明示的な整合性が欠如しているからです。本研究では、街並み画像を構造化された空間グラフにアンカーし、空間推論パスや空間的文脈キャプションを通じて距離性、方...
Original: arXiv:2602.08342v1 Announce Type: new Abstract: Learning transferable multimodal embeddings for urban environments is challenging because urban understanding is inherently spatial, yet existing datas...
What, Whether and How? Process Reward Models for Thinking with Images Reasoning を解き明かす
What, Whether and How? Unveiling Process Reward Models for Thinking with Images Reasoning
arXiv:2602.08346v1 Announce Type: new 摘要:大規模ビジョン・言語モデル(LVLMs)の急成長により、様々な視覚タスクにおける優れた能力が示されています。これらの発展を基盤とした「イメージ付き思考(thinking with images)」のパラドラムが出現し、モデルは推論の各ステップで視覚情報を動的に編集・再符号化することで、人間の視覚処理を模倣しています。...
Original: arXiv:2602.08346v1 Announce Type: new Abstract: The rapid advancement of Large Vision Language Models (LVLMs) has demonstrated excellent abilities in various visual tasks. Building upon these develop...
E-VAds: MLLMs 向けの EC ショップ動画理解ベンチマーク
E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs
arXiv:2602.08355v1 Announce Type: new 要旨: EC ショップ動画は、目的志向フォーマットと高密なマルチモーダル信号を特徴とするオンライン動画業界において高い収益性を示すセグメントである。既存のモデルは、一般目的のタスクに焦点を当てたベンチマークが商業的意図の推論を無視しているため、こうした動画においてしばしば困難さを味わう。本稿では、まずこのドメインの複雑性...
Original: arXiv:2602.08355v1 Announce Type: new Abstract: E-commerce short videos represent a high-revenue segment of the online video industry characterized by a goal-driven format and dense multi-modal signa...
ディフューン変換器を用いたエフェクト感応型コンテキスト内インパントによる幾何学的画像編集
Geometric Image Editing via Effects-Sensitive In-Context Inpainting with Diffusion Transformers
arXiv:2602.08388v1 Announce Type: new Abstract: 最近、ディフューションモデルの進展によって画像編集が大幅に改善されました。しかし、移動、回転、スケーリングのような幾何学的変換の処理には依然として課題が残っています。特に複雑なシーンでは、既存のアプローチは 2 つの主要な制限に苦しんでいます:(1) オブジェクトの移動、回転、スケーリングの幾何学的編集...
Original: arXiv:2602.08388v1 Announce Type: new Abstract: Recent advances in diffusion models have significantly improved image editing. However, challenges persist in handling geometric transformations, such ...
D$^2$-VR: 複合最適化戦略による耐減衰・ディストillation 動画修復
D$^2$-VR: Degradation-Robust and Distilled Video Restoration with Synergistic Optimization Strategy
arXiv:2602.08395v1 発表タイプ:新規 本文: 拡散事前情報と時系列整合を組み合わせたパラダイムが、動画修復において画質を劇的に向上させると同時に、複雑な実世界の減衰に直面した際の推論遅延の禁止性と時系列不安定さを引き起こす問題に直面している。この限界を解消するために、我々は低ステップ推論を備えた単画像拡散ベースの動画修復枠ワークである **D$^2$-VR** を提案した。激しい...
Original: arXiv:2602.08395v1 Announce Type: new Abstract: The integration of diffusion priors with temporal alignment has emerged as a transformative paradigm for video restoration, delivering fantastic percep...
RealSynCol: 3D 再構築アプリケーション用の高忠実度合成大腸データセット
RealSynCol: a high-fidelity synthetic colon dataset for 3D reconstruction applications
arXiv:2602.08397v1 発表タイプ:新規 要旨:深層学習は、大腸の 3D 再構築を可能にすることで、大腸の粘膜表面や病変の包括的なビューを提供し、未調査領域の特定を容易にし、胃鏡検査の向上に潜在的な能力を持っている。しかし、頑健な手法の開発は、大規模な真の値データの不足に制限されている。私たちは、内視鏡環境を複製することを目的とした、非常にリアリストックな合成データセット RealS...
Original: arXiv:2602.08397v1 Announce Type: new Abstract: Deep learning has the potential to improve colonoscopy by enabling 3D reconstruction of the colon, providing a comprehensive view of mucosal surfaces a...
多様な局所特徴のための注意ベースのスパースマッチングの理解と最適化
Understanding and Optimizing Attention-Based Sparse Matching for Diverse Local Features
arXiv:2602.08430v1 Announce Type: new 要約: 私たちは、多様な局所特徴に対する注意ベースのスパースイメージマッチングモデルの訓練に関する問題を見直しました。まず、LightGlue モデルのパフォーマンスに著しい影響を与える、以前見過ごされ続けていた重要な設計選択を特定しました。次に、トランスフォーマーベースのマッチングフレームワークにおける検出器と記述子(d...
Original: arXiv:2602.08430v1 Announce Type: new Abstract: We revisit the problem of training attention-based sparse image matching models for various local features. We first identify one critical design choic...
Demo-ICL: プロシージャルビデオの知識習得のための文脈内学習
Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition
arXiv:2602.08439v1 発表タイプ:新しい 要旨:最近のマルチモーダル大規模言語モデル(MLLM)の動画理解能力は急速に向上しているにもかかわらず、既存の動画ベンチマークはモデルが動的かつ新しい文脈から少数の例によって学習・適応できる能力ではなく、モデルが保有する静的内部知識に基づいて評価する傾向にあり、このギャップを埋めるため、当論文では文脈内デモンストレーションから学習し、対象動...
Original: arXiv:2602.08439v1 Announce Type: new Abstract: Despite the growing video understanding capabilities of recent Multimodal Large Language Models (MLLMs), existing video benchmarks primarily assess und...
Vista: Post-Hoc クエリ条件下のストリーミング動画質問応答におけるシーンの認識最適化
Vista: Scene-Aware Optimization for Streaming Video Question Answering under Post-Hoc Queries
arXiv:2602.08448v1 発表タイプ: 新しい 要約:ストリーミング動画質問応答(Streaming Video QA)は、マルチモーダル大規模言語モデル(MLLM)に対して特異な課題を提起します。ビデオフレームが順次到着し、ユーザーのクエリが任意のタイミングで発行されるためです。既存の固定サイズメモリや単純な圧縮に依存する手法は、文脈の損失やメモリ超過を引き起こし、長時間の実時間シナ...
Original: arXiv:2602.08448v1 Announce Type: new Abstract: Streaming video question answering (Streaming Video QA) poses distinct challenges for multimodal large language models (MLLMs), as video frames arrive ...
TriC-Motion: 空間・時間・周波数ドメインの因果モデリングに基づくテキストツーモーション生成
TriC-Motion: Tri-Domain Causal Modeling Grounded Text-to-Motion Generation
arXiv:2602.08462v1 Announce Type: new 摘要: テキストツーモーション生成は、コンピュータビジョンの急速に進化している分野で、リアルチックでテキストに整合した運動シーケンスを生成することを目指しています。現在の手法は、主に空間時間モデリングや独立した周波数ドメイン分析に焦点を当てており、空間、時間、周波数ドメイン全体で連動した最適化のための統一的な枠組みが欠如し...
Original: arXiv:2602.08462v1 Announce Type: new Abstract: Text-to-motion generation, a rapidly evolving field in computer vision, aims to produce realistic and text-aligned motion sequences. Current methods pr...
ジェストが重要だ:自動運転車の AV における骨架解析に基づく歩行者ジェスト認識
Gesture Matters: Pedestrian Gesture Recognition for AVs Through Skeleton Pose Evaluation
arXiv:2602.08479v1 発表タイプ:新しい 要約:ジェストは、公式な交通法規が不十分な場合に歩行者とドライバーの相互作用を助ける、非言語コミュニケーションの重要な要素です。この問題は、自律走行車(AV)が此类ジェストを解釈するのに struggled するときにより明らかになります。本研究では、WIVW データセットから得られた実際のビデオシーケンスに適用した 2D ポーズ推定を用い...
Original: arXiv:2602.08479v1 Announce Type: new Abstract: Gestures are a key component of non-verbal communication in traffic, often helping pedestrian-to-driver interactions when formal traffic rules may be i...
照明によるドメインシフト下における強化された食品カテゴリ認識
Enhanced Food Category Recognition under Illumination-Induced Domain Shift
arXiv:2602.08491v1 Announce Type: new Abstract: 自動ベルト検査のような実環境に展開された視覚食品認識システムは、照明変化によるドメインシフトに非常に敏感です。最近の研究で、照明の変化が人間および AI による食品認識を大きく歪ませることは示されていますが、既存の研究は単一の食品カテゴリや制御された環境に限定されており、多くの公開食品データセットには照...
Original: arXiv:2602.08491v1 Announce Type: new Abstract: Visual food recognition systems deployed in real-world environments, such as automated conveyor-belt inspection, are highly sensitive to domain shifts ...
ロールアウト増強によるビジョン・言語モデルにおける自己修正学習
Learning Self-Correction in Vision-Language Models via Rollout Augmentation
arXiv:2602.08503v1 Announce Type: new 要旨:自己修正は、ビジョン・言語モデル(VLM)の複雑な推理問題の解決において不可欠です。しかし、既存の強化学習(RL)手法は、自己修正行動が極めて稀にのみ出現するため、学習シグナルが極端に疎であることに失敗しています。この課題に対処するため、私たちは既存のロールアウトを再組み合わせることで、高密度な自己修正例を合成する ...
Original: arXiv:2602.08503v1 Announce Type: new Abstract: Self-correction is essential for solving complex reasoning problems in vision-language models (VLMs). However, existing reinforcement learning (RL) met...
電子顕微鏡画像分割において、ビジョンファウンデーションモデルは基礎的役割を果たしているのか?
Are Vision Foundation Models Foundational for Electron Microscopy Image Segmentation?
arXiv:2602.08505v1 Announce Type: new 本文書は、ビジョンファウンデーションモデル(VFMs)が増加する頻度で生物医学画像解析に再使用されるにもかかわらず、それらが提供 latent representation が異質な顕微鏡画像データセット間で効果的な転送と再使用を支援するために十分普遍的であるかどうかという問題を、電子顕微鏡(EM)画像におけるミトコンドリ...
Original: arXiv:2602.08505v1 Announce Type: new Abstract: Although vision foundation models (VFMs) are increasingly reused for biomedical image analysis, it remains unclear whether the latent representations t...
GeoFocus: 多模态幾何問題解決における効率的なグローバルからローカルへの変換を融合
GeoFocus: Blending Efficient Global-to-Local Perception for Multimodal Geometry Problem-Solving
arXiv:2602.08524v1 発表タイプ:新 要旨:幾何問題解決は、大型マルチモーダルモデル (LMM) にとって依然として大きな課題であり、単に全体の形状認識だけでなく、幾何学の理論に関連する複雑な局所関係にも注意を払う必要があります。これを解決するために、GeoFocus という新しいフレームワークを提案します。このフレームワークには 2 つの核心的モジュールが含まれています:1) ク...
Original: arXiv:2602.08524v1 Announce Type: new Abstract: Geometry problem-solving remains a significant challenge for Large Multimodal Models (LMMs), requiring not only global shape recognition but also atten...