Back to list
arxiv_cs_cv 2026年4月24日

TEMA: 画像をアンカーとし、テキストを追って、マルチ・モディフィケーション組画像検索

TEMA: Anchor the Image, Follow the Text for Multi-Modification Composed Image Retrieval

Translated: 2026/4/24 19:46:45
image-retrievalcomposed-imagemulti-modaldeep-learningdata-visualization

Japanese Translation

arXiv:2604.21806v1 Announce Type: new Abstract: 組画像検索 (CIR) は、参照画像と修正テキストからなるマルチモーダルクエリを使用して目標画像を取得可能にする、重要な画像検索のパラダイムです。CIR に関する研究は著しい進歩を遂げましたが、既存のセットアップは単純な修正テキストに依存しており、これは通常、限られた範囲の顕著な変化のみをカバーするものであり、以下の 2 つの実用アプリケーションと高度に関連する限界を引き起こします。すなわち、実体カバレッジの不充足と節 - 実体不整合です。これらの問題を解決し、CIR を現実世界の用途に近づけるために、私たちは 2 つの指示が豊富なマルチ・モディフィケーションデータセット、すなわち M-FashionIQ と M-CIRR を構築しました。さらに、テーマ (Text-oriented Entity Mapping Architecture) を提案しました。TEMA は、マルチ・モディフィケーションに対応しつつ単純な修正も想定できる、初の CIR フレームワークです。4 つのベンチマークデータセットでの大規模実験により、テーマは元画像およびマルチ・モディフィケーションのシナリオの両方で優位性を見せ、検索精度と計算効率の最適なバランスを保証したことが示されました。私たちのコードと構築したマルチ・モディフィケーションデータセット (M-FashionIQ, M-CIRR) は、https://github.com/lee-zixu/ACL26-TEMA/ に公開されています。

Original Content

arXiv:2604.21806v1 Announce Type: new Abstract: Composed Image Retrieval (CIR) is an important image retrieval paradigm that enables users to retrieve a target image using a multimodal query that consists of a reference image and modification text. Although research on CIR has made significant progress, prevailing setups still rely simple modification texts that typically cover only a limited range of salient changes, which induces two limitations highly relevant to practical applications, namely Insufficient Entity Coverage and Clause-Entity Misalignment. In order to address these issues and bring CIR closer to real-world use, we construct two instruction-rich multi-modification datasets, M-FashionIQ and M-CIRR. In addition, we propose TEMA, the Text-oriented Entity Mapping Architecture, which is the first CIR framework designed for multi-modification while also accommodating simple modifications. Extensive experiments on four benchmark datasets demonstrate that TEMA's superiority in both original and multi-modification scenarios, while maintaining an optimal balance between retrieval accuracy and computational efficiency. Our codes and constructed multi-modification dataset (M-FashionIQ and M-CIRR) are available at https://github.com/lee-zixu/ACL26-TEMA/.