4037 articles
Object-Centric モデルの評価:物発見を超えて
Evaluating Object-Centric Models beyond Object Discovery
arXiv:2602.07532v1 発表 タイプ:新しい 要旨:オブジェクト中心学習(OCL)は、構成可能な一般化と分布外(OOD)データに対する頑健性をサポートする構造化されたシーンの表現を学習することを目的としています。しかし、OCL モデルはこれらの目標について評価されていることは稀です。代わりに、既存の多くの研究は、オブジェクト発見と単純な推理タスク(画像分類を通じて表現を調べるなど)を...
Original: arXiv:2602.07532v1 Announce Type: new Abstract: Object-centric learning (OCL) aims to learn structured scene representations that support compositional generalization and robustness to out-of-distrib...
グローバルコンテキストビジョントランスフォーマーを用いた微細種別猫の認識
Fine-Grained Cat Breed Recognition with Global Context Vision Transformer
arXiv:2602.07534v1 Announce Type: new 摘要:画像から猫の種を正確に識別することは、毛並み、顔の構造、色といった微妙な差に対処する必要があるため、難しい課題です。本稿では、オックスフォード・IIIT ペットデータセットの一部を用い、画像から猫の種を分類する、深層学習ベースのアプローチを提示します。このデータセットには、さまざまな家庭猫の高解像度画像が含まれてい...
Original: arXiv:2602.07534v1 Announce Type: new Abstract: Accurate identification of cat breeds from images is a challenging task due to subtle differences in fur patterns, facial structure, and color. In this...
コアとペンムブラを超えた:時系列画像駆動脳卒中進化分析
Beyond Core and Penumbra: Bi-Temporal Image-Driven Stroke Evolution Analysis
arXiv:2602.07535v1 Announce Type: new 要約:入院時のコンピューター断層画像侵襲(CTP)は通常、虚血コアとペンムブラの推定に使用され、フォローアップの拡散強調磁気共鳴画像(DWI)は確定された虚血症の結果を提供します。しかし、単一時点のセグメンテーションでは、脳卒中の生化学的多様性と時系列的進化する過程を捉えられないままです。私たちは、統計記述子、放射画像テ...
Original: arXiv:2602.07535v1 Announce Type: new Abstract: Computed tomography perfusion (CTP) at admission is routinely used to estimate the ischemic core and penumbra, while follow-up diffusion-weighted MRI (...
限られたペアリングデータにおける LLM 指導型診断証拠整合 Medical Vision-Language Pretraining
LLM-Guided Diagnostic Evidence Alignment for Medical Vision-Language Pretraining under Limited Pairing
arXiv:2602.07540v1 Announce Type: new 摘訳:既存の CLIP スタイルの医療画像 - 言語自己学習法は、大量のペアリングデータに依存したグローバルまたはローカルの整合性を使用しています。しかし、グローバルな整合性は診断的非診断情報に支配されやすく、ローカルの整合性は重要な診断証拠の統合を失敗します。その結果、信頼できる診断表現の学習は困難になり、これらは限られ...
Original: arXiv:2602.07540v1 Announce Type: new Abstract: Most existing CLIP-style medical vision--language pretraining methods rely on global or local alignment with substantial paired data. However, global a...
MUFASA: ViT エンコーダーの複数階層に基づくスロット注意のマルチレイヤーフレームワーク
MUFASA: A Multi-Layer Framework for Slot Attention
arXiv:2602.07544v1 発表タイプ:新規 要約:無教師のオブジェクト中心学習(OCL)は、視覚的なシーンを別々のエンティティに分解します。スロット注意は、個別のオブジェクトを潜在的ベクトル(スロット)として表現する一般的なアプローチです。現在の手法は、これらのスロット表現を前もって学習したビジョントランスフォーマー(ViT)の最終層のみから取得し、他の階層にエンコードされている貴重な...
Original: arXiv:2602.07544v1 Announce Type: new Abstract: Unsupervised object-centric learning (OCL) decomposes visual scenes into distinct entities. Slot attention is a popular approach that represents indivi...
DINOv3 の訓練なしファーストショットセグメンテーションを通じた、Foundation モデルにおける语义選択ギャップの顕在化
Revealing the Semantic Selection Gap in DINOv3 through Training-Free Few-Shot Segmentation
arXiv:2602.07550v1 Announce Type: new Abstract: 最近の自己教師あり学習 Visual Transformer(ViT)、DINOv3 などは、密集型ビジョンタスクに富んだ特徴表現を提供する。本研究では、クラス固有のプロトタイプと Gram-matrix refinement を利用した訓練フリーなベースライン FSSDINO を通じて、凍結された ...
Original: arXiv:2602.07550v1 Announce Type: new Abstract: Recent self-supervised Vision Transformers (ViTs), such as DINOv3, provide rich feature representations for dense vision tasks. This study investigates...
FlexID: 文脈認識によるモデュレーションを用いた、無教師学習の文生成画像生成への柔軟なアイデンティティ注入
FlexID: Training-Free Flexible Identity Injection via Intent-Aware Modulation for Text-to-Image Generation
arXiv:2602.07554v1 Announce Type: new 本文書: Personalized text-to-image generation aims to seamlessly integrate specific identities into textual descriptions. However, existing training-free methods of...
Original: arXiv:2602.07554v1 Announce Type: new Abstract: Personalized text-to-image generation aims to seamlessly integrate specific identities into textual descriptions. However, existing training-free metho...
VISOR: 言語駆動型オブジェクトナビゲーションのための可視空間オブジェクト推論
VISOR: VIsual Spatial Object Reasoning for Language-driven Object Navigation
arXiv:2602.07555v1 発表 タイプ:新規 要約:言語駆動型オブジェクトナビゲーションは、エージェントが目的の物体に関する自然言語記述を解釈することを要求します。この記述は、インスタンス認識と共通知能に基づいたナビゲーションのために内在的および外在的特性を組み合わせています。既存の手法は、(i) 視覚言語埋め込みを使用するエンドツーエンドで訓練されたモデルで、これらは訓練データの外へ...
Original: arXiv:2602.07555v1 Announce Type: new Abstract: Language-driven object navigation requires agents to interpret natural language descriptions of target objects, which combine intrinsic and extrinsic a...
SIGMA: マルチ属性トークンを用いた選択的インターリーブ生成
SIGMA: Selective-Interleaved Generation with Multi-Attribute Tokens
arXiv:2602.07564v1 Announcement Type: new アブストラクト:最近の統一モデルである Bagel は、並列なイメージ編集データが単一の拡散トランスフォーマー内で複数の視覚タスクを効果的にアライメントできることを示しました。しかし、これらのモデルは単一条件入力に限定されており、複数の異性なソースから結果を合成するための柔軟性を欠いています。本研究では、拡散トラン...
Original: arXiv:2602.07564v1 Announce Type: new Abstract: Recent unified models such as Bagel demonstrate that paired image-edit data can effectively align multiple visual tasks within a single diffusion trans...
距離から的人类識別:課題、手法および HID 2025 コンペティションの結果
Human Identification at a Distance: Challenges, Methods and Results on the Competition HID 2025
arXiv:2602.07565v1 Announce Type: new 摘要:距離から的人类識別(HID)は、伝統的な生体認識形態(例えば顔認識や指紋)を実世界シーンで収集するのが難しいため、大きな課題です。歩行認識は、距離から確実に撮影できるという実用的な代替案を提供します。歩行認識の進展を促進し、公平な評価プラットフォームを提供するために、国際距離から的人类識別コンペティション(HID)は...
Original: arXiv:2602.07565v1 Announce Type: new Abstract: Human identification at a distance (HID) is challenging because traditional biometric modalities such as face and fingerprints are often difficult to a...
不整合表現学習に基づくカウスのクロスカメラ識別
Cross-Camera Cow Identification via Disentangled Representation Learning
arXiv:2602.07566v1 発表型:新規 要約:スマート畜舎における包括的なデジタル管理のための個体別の牛の精密な識別は、基本的な前提条件です。既存の動物識別方法は、制御された単一カメラの設定では優れていますが、クロスカメラでの汎用性には重大な課題を抱えています。源カメラで訓練されたモデルを、異なる照明、背景、視点、および異質的な撮像特性を持つ新規監視ノードに展開すると、認識性能が劇的に...
Original: arXiv:2602.07566v1 Announce Type: new Abstract: Precise identification of individual cows is a fundamental prerequisite for comprehensive digital management in smart livestock farming. While existing...
不可視性の可視化:タスク駆動型クロマティックエンコーディングによる乳腺 X 線撮影における放射線科医のパフォーマンス向上
Visualizing the Invisible: Enhancing Radiologist Performance in Breast Mammography via Task-Driven Chromatic Encoding
arXiv:2602.07568v1 告知タイプ:新規 概要:目的:乳房組織の密度が高いため、組織の重なりや微妙な所見が存在する乳がんスクリーニングの乳腺 X 線撮影では感度が低下し、視覚的な判別が困難になります。本稿では、単色画像をタスク駆動型クロマティックエンコーディング(TDCE)された視界に変換することで視覚的な増強を行う、エンドツーエンドのフレームワーク MammoColor を提案しま...
Original: arXiv:2602.07568v1 Announce Type: new Abstract: Purpose:Mammography screening is less sensitive in dense breasts, where tissue overlap and subtle findings increase perceptual difficulty. We present M...
ViCA: 視覚のみで Cross-Attention を持つ効率的なマルチモーダル LLM
ViCA: Efficient Multimodal LLMs with Vision-Only Cross-Attention
arXiv:2602.07574v1 発表タイプ: 新規 要約:現代のマルチモーダル大規模言語モデル (MLLM) は、すべての Transformer レイヤで視覚トークンとテキストトークンを処理する統一された自己注意思念 (self-attention) デザインを採用しており、これは著しい計算オーバーヘッドを生じさせます。本稿では、この稠密な視覚処理の必要性を再考し、投影された視覚エンベッデ...
Original: arXiv:2602.07574v1 Announce Type: new Abstract: Modern multimodal large language models (MLLMs) adopt a unified self-attention design that processes visual and textual tokens at every Transformer lay...
パラメトリックモデリングに基づく合成データで訓練された教師あり学習モデルを用いた自動岩盤接合部経路マッピング
Automated rock joint trace mapping using a supervised learning model trained on synthetic data generated by parametric modelling
arXiv:2602.07590v1 発表タイプ:新 要約:本稿は、画像から自動的な岩盤接合部経路マッピングを実現するための地質学駆動型機械学習手法を提示する。本アプローチは、限られた実データとクラス的不平衡の問題に対処するために、地質学モデル化、合成データ生成、および教師あり画像分割を組み合わせる。第一に、パラメトリックモデリングを用いた場観測におけるスケールに適合する接合部のある岩盤画像を生成...
Original: arXiv:2602.07590v1 Announce Type: new Abstract: This paper presents a geology-driven machine learning method for automated rock joint trace mapping from images. The approach combines geological model...
TeleBoost: 高忠実性、制御可能、および頑健なビデオ生成のための体系的なアライメントフレームワーク
TeleBoost: A Systematic Alignment Framework for High-Fidelity, Controllable, and Robust Video Generation
arXiv:2602.07595v1 発表 タイプ:新 要旨:事前学習モデルを、指示に従う、制御可能、かつ長期間の時系列の文脈で頑健な制作物指向モデルに変換する決定的なステップは、ポストトレーニングである。この報告書では、上質なポリシー形成、報酬駆動型強化学習、および好まれの基盤での微調整を、安定性を制約する単一の最適化スタックに統合する体系的なポストトレーニングフレームワークを提示する。このフレ...
Original: arXiv:2602.07595v1 Announce Type: new Abstract: Post-training is the decisive step for converting a pretrained video generator into a production-oriented model that is instruction-following, controll...
Fine-R1: Chain-of-Thought 推論を用いたマルチモーダル LLM の微細な視覚認識における卓越性の向上
Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning
arXiv:2602.07605v1 Announce Type: new 要旨:視覚世界内の任意のエントリティーは、共有された特性に基づき階層的にグループ化され、微細なサブカテゴリーにマップされる。マルチモーダル大規模言語モデル (MLLM) は粗粒度の視覚タスクで高い性能を示すが、微細な視覚認識 (FGVR) ではしばしば困難を覚える。汎用 MLLM を FGVR に適応させるためには、入手...
Original: arXiv:2602.07605v1 Announce Type: new Abstract: Any entity in the visual world can be hierarchically grouped based on shared characteristics and mapped to fine-grained sub-categories. While Multi-mod...
HistoMet: 一次腫瘍の組織学画像から転移進展と転移部位の親和性を予後予測するための全がん用ディープラーニングフレームワーク
HistoMet: A Pan-Cancer Deep Learning Framework for Prognostic Prediction of Metastatic Progression and Site Tropism from Primary Tumor Histopathology
arXiv:2602.07608v1 Announce Type: new Abstract: 転移進展はがん関連死亡率の主要な原因でありながら、一次腫瘍の転移可能性や転移部位を組織学的画像のみから予測することは依然として大きな課題です。また、全スライド画像(WSI)が豊富で形態的な情報を提供することは確かにありますが、従来の計算病理学のアプローチは、転移状態や部位の予測を孤立したタスクとして扱っ...
Original: arXiv:2602.07608v1 Announce Type: new Abstract: Metastatic Progression remains the leading cause of cancer-related mortality, yet predicting whether a primary tumor will metastasize and where it will...
AD-MIR: 構造化された推論を通じた広告ビデオ理解における認識から説得への架橋
AD-MIR: Bridging the Gap from Perception to Persuasion in Advertising Video Understanding via Structured Reasoning
arXiv:2602.07625v1 Announce Type: new 抽象: 広告ビデオの多モーダルな理解は、視覚的故事性を抽象的な説得戦略との複雑な関係を読み解くために不可欠である。しかし、既存のエージェントは一般検索において優れているにもかかわらず、ピクセルレベルの認識と高次 Marketing ロジックの間の認知的ギャップを埋めることに失敗することが多い。この課題に対処するために、A...
Original: arXiv:2602.07625v1 Announce Type: new Abstract: Multimodal understanding of advertising videos is essential for interpreting the intricate relationship between visual storytelling and abstract persua...
一般目的 3D 医学セグメンテーションにおけるモダリティ不一致と一般化の幻の解明
Uncovering Modality Discrepancy and Generalization Illusion for General-Purpose 3D Medical Segmentation
arXiv:2602.07643v1 発表タイプ:新しい 要旨:最近の 3D 医学基礎モデルは汎用的なツールとして位置づけられるようになっているものの、その検証は依然として地域画像や構造化画像に限定されており、モダリティ不一致に関する重要な研究が未踏歩です。厳密かつ客観的な評価を提供するため、私々は 490 例の全体型 PET/CT 画像と 464 例の全体型 PET/MRI 画像(約 675 ...
Original: arXiv:2602.07643v1 Announce Type: new Abstract: While emerging 3D medical foundation models are envisioned as versatile tools with offer general-purpose capabilities, their validation remains largely...
死ピクセルから編集可能なスライドへ:視言語領域理解に基づく情報図の再構築と本質的な Google スライドへの変換
From Dead Pixels to Editable Slides: Infographic Reconstruction into Native Google Slides via Vision-Language Region Understanding
arXiv:2602.07645v1 発表タイプ:新規 要旨:情報図はテキスト、アイコン、およびデータ可視化を組み合わせて情報を伝えるために広く使用されていますが、画像としてエクスポートされるとコンテンツがピクセルに固定され、更新、ローカライズ、再利用がコストのかかるものになります。我々は、視言語モデル(VLM)を用いて地区レベルの仕様を抽出し、ピクセルの幾何学をスライド座標にマッピングし、Goo...
Original: arXiv:2602.07645v1 Announce Type: new Abstract: Infographics are widely used to communicate information with a combination of text, icons, and data visualizations, but once exported as images their c...