Back to list
ストリートビュー画像から建築物および住宅の特性評価を実現するマルチモーダル LLM の活用
Leveraging Multimodal LLMs for Built Environment and Housing Attribute Assessment from Street-View Imagery
Translated: 2026/4/24 19:41:09
Japanese Translation
arXiv:2604.21102v1 Announce Type: new
摘要:本稿では、大規模言語モデル(LLM)と Google Street View(GSV)画像を活用することで、米国内を網羅的に自動的に建築状態を評価する新しいフレームワークを提案します。Gemma 3 27B モデルを小規模な人間によるラベル付けデータでファインチューニングすることで、我々のアプローチは人間による主観的スコア(MOS)と強い整合性を示し、MOS ベンチマークに対する SRCC と PLCC において、単独のラッターを上回る性能を発揮しました。効率性を向上させるために、Gemma 3 27B の能力をより小さな Gemma 3 4B モデルに転移させ、性能を同等にしながら 3 倍の速度向上を達成しました。さらに、CNN ベースのモデル(EfficientNetV2-M)とトランスフォーマー(SwinV2-B)への知識転移を行い、ほぼ同等の性能を維持しつつ 30 倍の速度向上を達成しました。また、人間と AI の整合性を調査する研究を通じて、マルチモーダル LLM を広範な建築物および住宅の特性評価に応用する能力を検証し、ホームオーナーによる downstream analysis に LLM の評価結果を統合する可視化ダッシュボードを開発しました。このフレームワークは、最小限の人間ラベル付けコストで高精度を達成できる、大規模な建築状態評価のための柔軟で効率的な解決策を提供します。
Original Content
arXiv:2604.21102v1 Announce Type: new
Abstract: We present a novel framework for automatically evaluating building conditions nationwide in the United States by leveraging large language models (LLMs) and Google Street View (GSV) imagery. By fine-tuning Gemma 3 27B on a modest human-labeled dataset, our approach achieves strong alignment with human mean opinion scores (MOS), outperforming even individual raters on SRCC and PLCC relative to the MOS benchmark. To enhance efficiency, we apply knowledge distillation, transferring the capabilities of Gemma 3 27B to a smaller Gemma 3 4B model that achieves comparable performance with a 3x speedup. Further, we distill the knowledge into a CNN-based model (EfficientNetV2-M) and a transformer (SwinV2-B), delivering close performance while achieving a 30x speed gain. Furthermore, we investigate LLMs' capabilities for assessing an extensive list of built environment and housing attributes through a human-AI alignment study and develop a visualization dashboard that integrates LLM assessment outcomes for downstream analysis by homeowners. Our framework offers a flexible and efficient solution for large-scale building condition assessment, enabling high accuracy with minimal human labeling effort.