Back to list
ChatENV: センサーガイダンス型環境モニタリングとシナリオシミュレーションのためのインタラクティブなビジョン・ランゲージモデル
ChatENV: An Interactive Vision-Language Model for Sensor-Guided Environmental Monitoring and Scenario Simulation
Translated: 2026/4/20 10:49:54
Japanese Translation
arXiv:2508.10635v3 Announce Type: replace
Abstract: 遠隔センシング画像からの環境変化の理解は、気候適応、都市計画、および生態系モニタリングにとって不可欠である。しかし、現在のビジョン・ランゲージモデル(VLM)は環境センサーからの因果的な信号を見落とし、スタイルバイアスに陥りやすい単一ソースのキャプションに依存しており、インタラクティブなシナリオベースの推論に欠如している。我々は、衛星画像対と現実世界のセンサーデータを同時に推論する初めてのインタラクティブな VLM、ChatENV を提示する。我々の枠組みは:(i) 197 カ国・62 土地利用分類における 15 万 2,000 パーの時系列対を含む 17 万 7,000 枚の画像からなるデータセットを構築し、豊富なセンサーメタデータ(例:温度、PM10、CO)を含む;(ii) GPT4o と Gemini 2.0 を使用して、スタイルおよび意味的な多様性を備えたデータ注釈付けを施す;(iii) チャット用に効率的なローランク適応(LoRA)アダプタを用いて Qwen-2.5-VL をファインチューニングする。ChatENV は時系列および「もし~なら」推論(例:BERTF1 0.902)において強力なパフォーマンスを発揮し、最先端の時系列モデルと競合したりそれを上回ったりしながら、インタラクティブなシナリオベースの解析をサポートする。これは、ChatENV を土台に据えた、センサー認識型の環境モニタリングのための強力なツールと位置づける。
Original Content
arXiv:2508.10635v3 Announce Type: replace
Abstract: Understanding environmental changes from remote sensing imagery is vital for climate resilience, urban planning, and ecosystem monitoring. Yet, current vision language models (VLMs) overlook causal signals from environmental sensors, rely on single-source captions prone to stylistic bias, and lack interactive scenario-based reasoning. We present ChatENV, the first interactive VLM that jointly reasons over satellite image pairs and real-world sensor data. Our framework: (i) creates a 177k-image dataset forming 152k temporal pairs across 62 land-use classes in 197 countries with rich sensor metadata (e.g., temperature, PM10, CO); (ii) annotates data using GPT4o and Gemini 2.0 for stylistic and semantic diversity; and (iii) fine-tunes Qwen-2.5-VL using efficient Low-Rank Adaptation (LoRA) adapters for chat purposes. ChatENV achieves strong performance in temporal and "what-if" reasoning (e.g., BERTF1 0.902) and rivals or outperforms state-of-the-art temporal models, while supporting interactive scenario-based analysis. This positions ChatENV as a powerful tool for grounded, sensor-aware environmental monitoring.