Back to list
arxiv_cs_cv 2026年4月20日

P3T: 一般化性能向上改善されたプロトタイプ式ポイントレベル・プロンプトチューニングによる 3D バージョン・ランゲージモデル

P3T: Prototypical Point-level Prompt Tuning with Enhanced Generalization for 3D Vision-Language Models

Translated: 2026/4/20 10:41:37
3d-vision-language-modelsprompt-tuningpoint-cloudfew-shot-learninggeneralization

Japanese Translation

arXiv:2604.15703v1 Announce Type: new アブストラクト: 3D パイントクラウドドメインにおける前訓練モデルの広範な実世界への適用における学習済みモデルの台頭に伴い、それらをダウンストリーミングタスクに適応させることが愈发重要となっています。従来のフル・ファインタューニング手法は計算コストとストレージコストが高いという問題を抱えています。プロンプトチューニングが効率的な代替手段として登場したものの、それは過学習を生じやすく、一般化能力を損なうという傾向があります。この課題に対処するため、私どもは前訓練 3D バージョン・ランゲージモデル (VLM) 用に設計されたパラメータ効率的プロンプトチューニング手法として「プロトタイプ式ポイントレベル・プロンプトチューニング (P$^3$T) 」を提案します。P$^3$T は、入力ポイントクラウドのためにインスタンス感知のポイントレベルのプロンプトを生成する「ポイントプロンプター」と、入力テキストに対して手動作成のプロンプトの代わりに学習可能なプロンプトを採用する「テキストプロンプター」という 2 つのコンポーネントから構成されています。両方のプロンプターが直接入力データに対して作用する事から、P$^3$T は一般化性を犠牲にしつつも 3D VLM のタスク特化的な適応を可能にします。加えて、3D VLM のファインタューニングにおいてキーとなる埋め込み空間の整合性を高めるために、カテゴリー内の分散を削減するプロトタイプ損失を導入します。広範な実験により、我々の手法が分類および少ショット学習においてフルファインタューニングと同等または優れた性能を示し、かつクロスデータセット設定におけるデータシフトに対して頑健な一般化を示した事が明らかになりました。コードは以下の URL で利用可能です:https://github.com/gyjung975/P3T

Original Content

arXiv:2604.15703v1 Announce Type: new Abstract: With the rise of pre-trained models in the 3D point cloud domain for a wide range of real-world applications, adapting them to downstream tasks has become increasingly important. However, conventional full fine-tuning methods are computationally expensive and storage-intensive. Although prompt tuning has emerged as an efficient alternative, it often suffers from overfitting, thereby compromising generalization capability. To address this issue, we propose Prototypical Point-level Prompt Tuning (P$^3$T), a parameter-efficient prompt tuning method designed for pre-trained 3D vision-language models (VLMs). P$^3$T consists of two components: 1) \textit{Point Prompter}, which generates instance-aware point-level prompts for the input point cloud, and 2) \textit{Text Prompter}, which employs learnable prompts into the input text instead of hand-crafted ones. Since both prompters operate directly on input data, P$^3$T enables task-specific adaptation of 3D VLMs without sacrificing generalizability. Furthermore, to enhance embedding space alignment, which is key to fine-tuning 3D VLMs, we introduce a prototypical loss that reduces intra-category variance. Extensive experiments demonstrate that our method matches or outperforms full fine-tuning in classification and few-shot learning, and further exhibits robust generalization under data shift in the cross-dataset setting. The code is available at \textcolor{violet}{https://github.com/gyjung975/P3T}.