Back to list
arxiv_cs_cv 2026年4月20日

暗闇における適応:ブラックボックスモデルに対する効率的かつ安定したテストタイム適応

Adapting in the Dark: Efficient and Stable Test-Time Adaptation for Black-Box Models

Translated: 2026/4/20 10:47:43
black-box-ttatest-time-adaptationzeroth-order-optimizationapi-accessvision-language-models

Japanese Translation

arXiv:2604.15609v1 Announce Type: cross Summary: ブラックボックスモデル(API 経由でのみアクセス可能なモデル)を対象としたテストタイム適応(TTA)は、まだ十分に探求されていない課題である。既存のアプローチは、事後処理による出力の精細化など、適応能力が限られており、ゼロ次最適化(ZOO)が入力空間での適応を可能にするものの、無教師学習の設定における高いクエリコストや最適化の課題がある。本稿では、軽量なローカルホワイトボックススチーリングモデルを用い、処理可能な勾配パスを生成することでこれらの制限を克服する、ブラックボックス効率的テストタイム適応(BETA)というフレームワークを導入する。予測調和技術と整合性制約、プロンプト学習指向のフィルタリングを組み合わせることで、BETA は追加の API 呼び出しなし、標準的な推論のわずかな遅延を除き微小なオーバーヘッドで安定した適応を実現する。ImageNet-C において、BETA は ViT-B/16 で +7.1%、CLIP で +3.4% の精度向上を示し、TENT や TPT を含む強力なホワイトボックスおよびグレイボックス手法を凌ぐ。商業 API の場合、ZOO と同様の性能を 250 倍の低いコストで達成し、リアルタイム推論速度を維持するため、実世界のブラックボックス TTA における実用的かつ効率的な解決策と確立された。

Original Content

arXiv:2604.15609v1 Announce Type: cross Abstract: Test-Time Adaptation (TTA) for black-box models accessible only via APIs remains a largely unexplored challenge. Existing approaches such as post-hoc output refinement offer limited adaptive capacity, while Zeroth-Order Optimization (ZOO) enables input-space adaptation but faces high query costs and optimization challenges in the unsupervised TTA setting. We introduce BETA (Black-box Efficient Test-time Adaptation), a framework that addresses these limitations by employing a lightweight, local white-box steering model to create a tractable gradient pathway. Through a prediction harmonization technique combined with consistency regularization and prompt learning-oriented filtering, BETA enables stable adaptation with no additional API calls and negligible latency beyond standard inference. On ImageNet-C, BETA achieves a +7.1% accuracy gain on ViT-B/16 and +3.4% on CLIP, surpassing strong white-box and gray-box methods including TENT and TPT. On a commercial API, BETA achieves comparable performance to ZOO at 250x lower cost while maintaining real-time inference speed, establishing it as a practical and efficient solution for real-world black-box TTA.