Back to list
Ramen: 能動的サンプル選択による視覚言語モデルにおける堅牢なテストタイム適応
Ramen: Robust Test-Time Adaptation of Vision-Language Models with Active Sample Selection
Translated: 2026/4/24 19:46:15
Japanese Translation
arXiv:2604.21728v1 発表型:新規
要約: CLIP などの事前学習された視覚言語モデルは強力なゼロショット一般化能力を示しますが、分布のシフトに対して依然として脆弱です。テストタイム適応は、ソースデータやターゲットラベルへのアクセスをなしながら推論中にモデルを適応させることで、このようなシフトを処理する実用的な手法を提供します。ただし、既存の手法は、テストサンプルが単一の一貫性の高いドメインから来ると仮定しており、実際にはテストデータは特徴が異なる複数のドメインからのサンプルを混在させることが一般的です。その結果、それらの性能は混在ドメイン設定の下で低下します。この問題に対処するために、私たちは能動的なサンプル選択を通じた堅牢なテストタイム適応のためのフレームワークである Ramen を提案します。各入ってくるテストサンプルについて、Ramen は 2 つの基準に基づいて以前見られたデータからカスタマイズされたバッチの関連サンプルを取得します:ドメインの一貫性(適応が類似のドメインのデータに焦点を当てることを保証し)、予測のバランス(不均衡された予測による適応バイアスを緩和)。効率を向上させるために、Ramen は過去の見られた画像の埋め込みとサンプルレベルの勾配を保存する埋め込み勾配キャッシュを採用します。保存された埋め込みを使用して関連サンプルを取得し、対応する勾配はモデル更新に集計されます。これにより、追加のフォワードまたはバクロードパスの必要がありません。私たちの理論的分析は、提案された適応機構がなぜ混在ドメインのシフトの下で有効なのかという洞察を提供します。複数の画像損傷とドメインシフトベンチマークにおける実験は、Ramen が強力で一貫性のある性能を達成し、複雑な混在ドメインシナリオで堅牢かつ効率的な適応を提供することを示しています。私たちのコードは https://github.com/baowenxuan/Ramen で利用可能です。
Original Content
arXiv:2604.21728v1 Announce Type: new
Abstract: Pretrained vision-language models such as CLIP exhibit strong zero-shot generalization but remain sensitive to distribution shifts. Test-time adaptation adapts models during inference without access to source data or target labels, offering a practical way to handle such shifts. However, existing methods typically assume that test samples come from a single, consistent domain, while in practice, test data often include samples from mixed domains with distinct characteristics. Consequently, their performance degrades under mixed-domain settings. To address this, we present Ramen, a framework for robust test-time adaptation through active sample selection. For each incoming test sample, Ramen retrieves a customized batch of relevant samples from previously seen data based on two criteria: domain consistency, which ensures that adaptation focuses on data from similar domains, and prediction balance, which mitigates adaptation bias caused by skewed predictions. To improve efficiency, Ramen employs an embedding-gradient cache that stores the embeddings and sample-level gradients of past test images. The stored embeddings are used to retrieve relevant samples, and the corresponding gradients are aggregated for model updates, eliminating the need for any additional forward or backward passes. Our theoretical analysis provides insight into why the proposed adaptation mechanism is effective under mixed-domain shifts. Experiments on multiple image corruption and domain-shift benchmarks demonstrate that Ramen achieves strong and consistent performance, offering robust and efficient adaptation in complex mixed-domain scenarios. Our code is available at https://github.com/baowenxuan/Ramen .