Back to list
Open-Text Aerial Detection: 航空視覚グウンディングと検出のための統一された枠組み
Open-Text Aerial Detection: A Unified Framework For Aerial Visual Grounding And Detection
Translated: 2026/3/15 19:02:07
Japanese Translation
arXiv:2602.07827v1 発表型:新規
要約: 語彙開泛航空検出 (OVAD) とリモートセンシング視覚グウンディング (RSVG) が、航空観測の理解のための 2 つの重要なパラダイムとして浮上しました。しかし、それぞれのパラダイムは孤立して動作する際、本質的な限界を抱えています: OVAD は粗いカテゴリーレベルの半義みに限定され、RSVG は単一目標の局所化に構造的に制限されています。これらの限界は、既存の手法が豊富な半義理解と多目標検出を同時にサポートすることを妨げていました。これを解決するために、私たちは OTA-Det という、この 2 つのパラダイムを統合した統一された枠組みを提唱しました。具体的には、タスクリформуレーション戦略を導入し、タスク目標と監督メカニズムを統一することで、両方から派生したデータセット間でデンス監督シグナルによる共同トレーニングを可能にします。さらに、ホリスティック表現から個別の属性に至るまでの複数の粒度における明確な対応関係を確立し、微細な半義理解を可能にするデンスセマンティックアラインメント戦略を提案しました。リアルタイム効率を確保するために、OTA-Det は RT-DETR 架構を基盤とし、クローズドセット検出からオープンテキスト検出へ移行するべく、いくつかの高度に効率的なモジュールを導入しました。これにより、OVAD と RSVG タスクをまたぐ 6 つのベンチマークで最上級のパフォーマンスを達成しつつ、34 FPS のリアルタイム推論を維持しました。
Original Content
arXiv:2602.07827v1 Announce Type: new
Abstract: Open-Vocabulary Aerial Detection (OVAD) and Remote Sensing Visual Grounding (RSVG) have emerged as two key paradigms for aerial scene understanding. However, each paradigm suffers from inherent limitations when operating in isolation: OVAD is restricted to coarse category-level semantics, while RSVG is structurally limited to single-target localization. These limitations prevent existing methods from simultaneously supporting rich semantic understanding and multi-target detection. To address this, we propose OTA-Det, the first unified framework that bridges both paradigms into a cohesive architecture. Specifically, we introduce a task reformulation strategy that unifies task objectives and supervision mechanisms, enabling joint training across datasets from both paradigms with dense supervision signals. Furthermore, we propose a dense semantic alignment strategy that establishes explicit correspondence at multiple granularities, from holistic expressions to individual attributes, enabling fine-grained semantic understanding. To ensure real-time efficiency, OTA-Det builds upon the RT-DETR architecture, extending it from closed-set detection to open-text detection by introducing several high efficient modules, achieving state-of-the-art performance on six benchmarks spanning both OVAD and RSVG tasks while maintaining real-time inference at 34 FPS.