Back to list
潜領域モデル化による地理的シフトへの頑健性の向上
Latent Domain Modeling Improves Robustness to Geographic Shifts
Translated: 2026/3/15 17:02:00
Japanese Translation
arXiv:2503.02036v3 発表型: 代替クロス
要旨: 地理的分布のシフトとは、トレーニングデータの地球上の位置の分布が、推論時に観察されるものと異なる現象を指す。この設定で標準的な経験的リスク最小化 (ERM) を適用すると、大陸や生物圏といった空間的に特定された関心のあるグループ間での不均衡な汎化につながることがある。地理的分布のシフトに対処する一般的なアプローチは、連続の座標データを無視しながら離散的なグループラベルを用いたドメイン適応手法を適用するものである。一方で、地理的座標を統合したモデリング手法は全体としての性能を向上させることが示されているが、その影響は地理的ドメインの汎化に対する研究はまだ行われていない。本研究では、地理的分布のシフトに対する頑健性を向上させるための一般的なモデリングフレームワークを提案する。重要な概念は、位置エンコーダーを用いた連続的な潜在ドメイン割り当てのモデリングを行い、メインタスクの予測子を共同トレーニングされた潜在変数に条件付けることである。4 つの多様な地理タグ付き画像データセット(異なるグループ割分け)において、我々のフレームワークのインスタンスは、既存のドメイン適応および位置感知的モデリング手法と比べて、最悪のグループ性能において著しい改善を達成していることが示された。特に、2 つの WILDS ベンチマークのデータセットにおいて新しい最良結果 (state-of-the-art) を達成した。
Original Content
arXiv:2503.02036v3 Announce Type: replace-cross
Abstract: Geographic distribution shift arises when the distribution of locations on Earth in a training dataset is different from what is seen at inference time. Using standard empirical risk minimization (ERM) in this setting can lead to uneven generalization across different spatially-determined groups of interest such as continents or biomes. The most common approaches to tackling geographic distribution shift apply domain adaptation methods using discrete group labels, ignoring geographic coordinates that are often available as metadata. On the other hand, modeling methods that integrate geographic coordinates have been shown to improve overall performance, but their impact on geographic domain generalization has not been studied. In this work, we propose a general modeling framework for improving robustness to geographic distribution shift. The key idea is to model continuous, latent domain assignment using location encoders and to condition the main task predictor on the jointly-trained latents. On four diverse geo-tagged image datasets with different group splits, we show that instances of our framework achieve significant improvements in worst-group performance compared to existing domain adaptation and location-aware modeling methods. In particular, we achieve new state-of-the-art results on two datasets from the WILDS benchmark.