4037 articles

Object-Centric モデルの評価：物発見を超えて

Evaluating Object-Centric Models beyond Object Discovery

arXiv:2602.07532v1 発表タイプ：新しい要旨：オブジェクト中心学習（OCL）は、構成可能な一般化と分布外（OOD）データに対する頑健性をサポートする構造化されたシーンの表現を学習することを目的としています。しかし、OCL モデルはこれらの目標について評価されていることは稀です。代わりに、既存の多くの研究は、オブジェクト発見と単純な推理タスク（画像分類を通じて表現を調べるなど）を...

Original: arXiv:2602.07532v1 Announce Type: new Abstract: Object-centric learning (OCL) aims to learn structured scene representations that support compositional generalization and robustness to out-of-distrib...

Object-Centric モデルの評価：物発見を超えて

グローバルコンテキストビジョントランスフォーマーを用いた微細種別猫の認識

コアとペンムブラを超えた：時系列画像駆動脳卒中進化分析

限られたペアリングデータにおける LLM 指導型診断証拠整合 Medical Vision-Language Pretraining

MUFASA: ViT エンコーダーの複数階層に基づくスロット注意のマルチレイヤーフレームワーク

DINOv3 の訓練なしファーストショットセグメンテーションを通じた、Foundation モデルにおける语义選択ギャップの顕在化

FlexID: 文脈認識によるモデュレーションを用いた、無教師学習の文生成画像生成への柔軟なアイデンティティ注入

VISOR: 言語駆動型オブジェクトナビゲーションのための可視空間オブジェクト推論

SIGMA: マルチ属性トークンを用いた選択的インターリーブ生成

距離から的人类識別：課題、手法および HID 2025 コンペティションの結果

不整合表現学習に基づくカウスのクロスカメラ識別

不可視性の可視化：タスク駆動型クロマティックエンコーディングによる乳腺 X 線撮影における放射線科医のパフォーマンス向上

ViCA: 視覚のみで Cross-Attention を持つ効率的なマルチモーダル LLM

パラメトリックモデリングに基づく合成データで訓練された教師あり学習モデルを用いた自動岩盤接合部経路マッピング

TeleBoost: 高忠実性、制御可能、および頑健なビデオ生成のための体系的なアライメントフレームワーク

Fine-R1: Chain-of-Thought 推論を用いたマルチモーダル LLM の微細な視覚認識における卓越性の向上

HistoMet: 一次腫瘍の組織学画像から転移進展と転移部位の親和性を予後予測するための全がん用ディープラーニングフレームワーク

AD-MIR: 構造化された推論を通じた広告ビデオ理解における認識から説得への架橋

一般目的 3D 医学セグメンテーションにおけるモダリティ不一致と一般化の幻の解明

死ピクセルから編集可能なスライドへ：視言語領域理解に基づく情報図の再構築と本質的な Google スライドへの変換