Back to list
arxiv_cs_cv 2026年2月10日

Object-Centric モデルの評価:物発見を超えて

Evaluating Object-Centric Models beyond Object Discovery

Translated: 2026/3/15 18:03:46
object-centric-learningvision-language-modelsbenchmarksout-of-distributiongeneralization

Japanese Translation

arXiv:2602.07532v1 発表 タイプ:新しい 要旨:オブジェクト中心学習(OCL)は、構成可能な一般化と分布外(OOD)データに対する頑健性をサポートする構造化されたシーンの表現を学習することを目的としています。しかし、OCL モデルはこれらの目標について評価されていることは稀です。代わりに、既存の多くの研究は、オブジェクト発見と単純な推理タスク(画像分類を通じて表現を調べるなど)を通じてのみ OCL モデルの評価に焦点を当てています。既存のベンチマークには 2 つの制限があります:(1)OCL モデルの表現の有用性に関する洞察が限られており、(2)ロケーションと表現の有用性は異なるメトリックで評価されています。これらの課題に対応するため、私達はインストラクションチューニングされた VLM(Vision-Language Models)を評価者として採用し、多様な VQA データセットを跨るスケーラブルなベンチマーキングを可能にするとともに、VLM が OCL 表現を複雑な推理タスクにどれだけ活用できるかを測定しました。また、(2)に対応するために、ロケーション(どこ)と表現の有用性(何か)を同時評価する統一された評価タスクとメトリックを導入し、不一致な評価によって引き起こされる矛盾を解消しました。さらに、単純な多特徴量再構築ベースラインを基準点として含めています。

Original Content

arXiv:2602.07532v1 Announce Type: new Abstract: Object-centric learning (OCL) aims to learn structured scene representations that support compositional generalization and robustness to out-of-distribution (OOD) data. However, OCL models are often not evaluated regarding these goals. Instead, most prior work focuses on evaluating OCL models solely through object discovery and simple reasoning tasks, such as probing the representation via image classification. We identify two limitations in existing benchmarks: (1) They provide limited insights on the representation usefulness of OCL models, and (2) localization and representation usefulness are assessed using disjoint metrics. To address (1), we use instruction-tuned VLMs as evaluators, enabling scalable benchmarking across diverse VQA datasets to measure how well VLMs leverage OCL representations for complex reasoning tasks. To address (2), we introduce a unified evaluation task and metric that jointly assess localization (where) and representation usefulness (what), thereby eliminating inconsistencies introduced by disjoint evaluation. Finally, we include a simple multi-feature reconstruction baseline as a reference point.