Back to list
エネルギーベースのオープンセットアクティブ学習による物体分類
Energy-Based Open-Set Active Learning for Object Classification
Translated: 2026/4/24 19:56:07
Japanese Translation
arXiv:2604.20083v1 Announce Type: new
摘要:アクティブ学習(AL)は、未分類データプールから最も価値のあるサンプルを選択し注釈付けることで、ディープラーニングにおける注釈コストを最小化する重要な手法として台頭した。従来の AL は、データセット内のすべてのクラスが既知で一貫しているというクローズドセット仮定の下で動作する。しかし、実際のシナリオでは、未分類データには既知クラスと未知クラスの両方が含まれているオープンセットの状態が頻繁に観察される。このような環境では、標準的な AL テクニークには限界があり、それらは未知カテゴリのサンプルを誤ってクエリしてしまい、注釈予算の効率的な利用を妨げる。本稿では、オープンセット AL 用の新しい 2 段階エネルギーベースフレームワークを提案する。私達の手法は、2 つの専門的なエネルギーベースモデル(EBM)を採用する。最初のものはエネルギーベースの既知/未知セパレーターであり、未知クラスに属す可能性が高いサンプルをフィルタリングする。第二のものはエネルギーベースのサンプルスコアーであり、フィルタリングされた既知サンプルの情報性を評価する。エネルギー地形を用いて、私達のモデルは未分類プール内のデータポイントについて、既知クラスと未知クラスの間を区別し、既知サンプルに低いエネルギー、未知サンプルに高いエネルギーを割り当てることで、注釈を選択するには関心を持つクラスからのサンプルのみが選択されるようにする。これらのコンポーネントを統合することにより、私達のアプローチは各イテレーションで最大化された学習影響を効率的かつ的を射としたサンプル選択を確保する。2D(CIFAR-10、CIFAR-100、TinyImageNet)および 3D(ModelNet40)の物体分類ベンチマークにおける実験は、我達のフレームワークが既存のアプローチを超え、オープンセット環境において優れた注釈効率と分類性能を実現することを示している。
Original Content
arXiv:2604.20083v1 Announce Type: new
Abstract: Active learning (AL) has emerged as a crucial methodology for minimizing labeling costs in deep learning by selecting the most valuable samples from a pool of unlabeled data for annotation. Traditional AL operates under a closed-set assumption, where all classes in the dataset are known and consistent. However, real-world scenarios often present open-set conditions in which unlabeled data contains both known and unknown classes. In such environments, standard AL techniques struggle. They can mistakenly query samples from unknown categories, leading to inefficient use of annotation budgets. In this paper, we propose a novel dual-stage energy-based framework for open-set AL. Our method employs two specialized energy-based models (EBMs). The first, an energy-based known/unknown separator, filters out samples likely to belong to unknown classes. The second, an energy-based sample scorer, assesses the informativeness of the filtered known samples. Using the energy landscape, our models distinguish between data points from known and unknown classes in the unlabeled pool by assigning lower energy to known samples and higher energy to unknown samples, ensuring that only samples from classes of interest are selected for labeling. By integrating these components, our approach ensures efficient and targeted sample selection, maximizing learning impact in each iteration. Experiments on 2D (CIFAR-10, CIFAR-100, TinyImageNet) and 3D (ModelNet40) object classification benchmarks demonstrates that our framework outperforms existing approaches, achieving superior annotation efficiency and classification performance in open-set environments.