Back to list
クロスモーダル学習によるプランクトン認識
Cross-modal learning for plankton recognition
Translated: 2026/4/20 10:51:33
Japanese Translation
arXiv:2603.16427v2 Announce Type: replace
Abstract:本論文は、複数モーダルと大量のラベル付けされていないプランクトンデータを活用してプランクトン認識モデルを構築できるようにする自己教師ありクロスモーダル座標化を戦略として検討する。自動画像装置により、大規模に連続的にプランクトン画像データを収集可能となっている。現在の自動プランクトン画像認識手法は、主に収集に労力を要するラベル付け済み学習セットが必要とする教師ありアプローチに依存している。一方、ある現代のプランクトン画像装置は、画像情報に加え、散乱や蛍光プロファイリングなどの光計測データを補完しており、これらは現在プランクトン認識で広く利用されていない。本研究では、こうした計測データを不要な手動ラベル付けなしに学習プロセスをガイドするための可能性を模索する。対比言語画像事前訓練(CLIP)の概念に着想を得て、両モーダル用のエンコーダーを、与えられた画像とプロファイルが同一の粒子由来か異なる粒子由来かを示す二進価値情報のみを用いて訓練する。プランクトン認識には、既知のプランクトン種の小型ラベル付きギャラリーを $k$-NN クラシファイヤーと組み合わせる。この手法は、画像とプロファイルデータから抽出された情報をともに活用できる本質的なマルチモーダル認識モデルをもたらす。本手法が、極めて少数のラベル付き画像で高い認識精度を達成し、画像のみを扱う自己教師ありベースラインを上回ることを示した。コードは https://github.com/Jookare/cross-modal-plankton で利用可能です。
Original Content
arXiv:2603.16427v2 Announce Type: replace
Abstract: This paper considers self-supervised cross-modal coordination as a strategy enabling utilization of multiple modalities and large volumes of unlabeled plankton data to build models for plankton recognition. Automated imaging instruments facilitate the continuous collection of plankton image data on a large scale. Current methods for automatic plankton image recognition rely primarily on supervised approaches, which require labeled training sets that are labor-intensive to collect. On the other hand, some modern plankton imaging instruments complement image information with optical measurement data, such as scatter and fluorescence profiles, which currently are not widely utilized in plankton recognition. In this work, we explore the possibility of using such measurement data to guide the learning process without requiring manual labeling. Inspired by the concepts behind Contrastive Language-Image Pre-training, we train encoders for both modalities using only binary supervisory information indicating whether a given image and profile originate from the same particle or from different particles. For plankton recognition, we employ a small labeled gallery of known plankton species combined with a $k$-NN classifier. This approach yields a recognition model that is inherently multimodal, i.e., capable of utilizing information extracted from both image and profile data. We demonstrate that the proposed method achieves high recognition accuracy while requiring only a minimal number of labeled images. Furthermore, we show that the approach outperforms an image-only self-supervised baseline. Code available at https://github.com/Jookare/cross-modal-plankton.