Back to list
シーン適応のための密度ガイダンスを活用したワンショットの人物数推計
One-Shot Crowd Counting With Density Guidance For Scene Adaptaion
Translated: 2026/3/15 19:03:00
Japanese Translation
arXiv:2602.07955v1 Announce Type: new
要旨:カメラによって撮影された多人数のシーンには、場所によって大きな違いがあり、既存の多人数モデルは未見の監視シーンへの汎化に制限がある。モデルの汎化性能を向上させるために、私たちは異なる監視シーンを異なるカテゴリーのシーンと見なし、少人数学習を導入して、与えられた例示カテゴリーシーンの未見監視シーンにモデルを適応させる。そのために、我々は未見の監視シーン向けの多人数推計モデルを、局所的な密度特性と全球的な密度特性を活用して導くことを提案した。具体的には、ターゲットシーンの変化する密度の変動にモデルを適応させるために、多人数の局所密度学習者が提案され、これがサポートシーンにおける異なる密度分布を表す複数のプロトタイプを学習する。その後、これらの多人数の局所密度類似行列はエンコードされ、モデルを局所的に導くために利用される。さらに、ターゲットシーンの全球的な密度に適応させるために、サポート画像から全球的な密度特徴量が抽出され、それを globally モデルを導くために利用される。3 つの監視データセットにおける実験では、提案された方法は未見の監視シーンに適応でき、少人数の多人数推計において直近の最先进の方法を超えると示された。
Original Content
arXiv:2602.07955v1 Announce Type: new
Abstract: Crowd scenes captured by cameras at different locations vary greatly, and existing crowd models have limited generalization for unseen surveillance scenes. To improve the generalization of the model, we regard different surveillance scenes as different category scenes, and introduce few-shot learning to make the model adapt to the unseen surveillance scene that belongs to the given exemplar category scene. To this end, we propose to leverage local and global density characteristics to guide the model of crowd counting for unseen surveillance scenes. Specifically, to enable the model to adapt to the varying density variations in the target scene, we propose the multiple local density learner to learn multi prototypes which represent different density distributions in the support scene. Subsequently, these multiple local density similarity matrixes are encoded. And they are utilized to guide the model in a local way. To further adapt to the global density in the target scene, the global density features are extracted from the support image, then it is used to guide the model in a global way. Experiments on three surveillance datasets shows that proposed method can adapt to the unseen surveillance scene and outperform recent state-of-the-art methods in the few-shot crowd counting.