Back to list
arxiv_cs_cv 2026年4月20日

概念レベルの注意力による細粒度概念ボトルネックモデル

Concept-wise Attention for Fine-grained Concept Bottleneck Models

Translated: 2026/4/20 10:42:23
concept-bottleneck-modelsclipvisual-queriesfine-grainedimage-text-alignment

Japanese Translation

arXiv:2604.15748v1 発表 タイプ:新 要約:最近、大規模事前学習された視覚・言語モデル(すなわち CLIP)で学習された画像テキストアライメントを利用して、概念ボトルネックモデル(CBM)に驚くべき性能が達成されています。しかしながら、概念モデル化には重要な 2 つの制限が存在します。既存の手法は、事前学習バイアス、つまり粒度の不一致や構造的仮定への依存に苦しんでいます。さらに、二値クロスエントロピー(BCE)損失を用いたファインチューニングは、概念を独立に扱うため、概念間の排他性を無視し、最適なアライメントを導き出せずにいます。これらの制限に対処するため、我々は概念レベルの注意力による細粒度概念ボトルネックモデル(CoAt-CBM)を提案します。これは、適応的な細粒度画像 - 概念アライメントと高い解釈可能性を達成する、新しい枠組みです。具体的には、CoAt-CBM は学習可能な概念レベルの視覚クエリを採用し、適応的に細粒度の概念レベルの視覚エンベディングを取得し、これを使用して概念スコアベクトルを生み出します。次に、新しい概念コントラステス・最適化が、概念スコアの相対的重要性を扱うようモデルを導き出し、概念予測が画像コンテンツを忠実に反映するよう、そして改良されたアライメントを実現します。大規模な実験は、CoAt-CBM が最上位の手法を常に上回っていることを示しています。コードは受理後に公開されます。

Original Content

arXiv:2604.15748v1 Announce Type: new Abstract: Recently impressive performance has been achieved in Concept Bottleneck Models (CBM) by utilizing the image-text alignment learned by a large pre-trained vision-language model (i.e. CLIP). However, there exist two key limitations in concept modeling. Existing methods often suffer from pre-training biases, manifested as granularity misalignment or reliance on structural priors. Moreover, fine-tuning with Binary Cross-Entropy (BCE) loss treats each concept independently, which ignores mutual exclusivity among concepts, leading to suboptimal alignment. To address these limitations, we propose Concept-wise Attention for Fine-grained Concept Bottleneck Models (CoAt-CBM), a novel framework that achieves adaptive fine-grained image-concept alignment and high interpretability. Specifically, CoAt-CBM employs learnable concept-wise visual queries to adaptively obtain fine-grained concept-wise visual embeddings, which are then used to produce a concept score vector. Then, a novel concept contrastive optimization guides the model to handle the relative importance of the concept scores, enabling concept predictions to faithfully reflect the image content and improved alignment. Extensive experiments demonstrate that CoAt-CBM consistently outperforms state-of-the-art methods. The codes will be available upon acceptance.