Back to list
arxiv_cs_cv 2026年4月20日

CollideNet: 解構化された階層的マルチスケールビデオ表現学習による衝突時間予測

CollideNet: Hierarchical Multi-scale Video Representation Learning with Disentanglement for Time-To-Collision Forecasting

Translated: 2026/4/20 10:46:17
time-to-collisioncollideNethierarchical-transformertemporal-predictionvideo-processing

Japanese Translation

arXiv:2604.16240v1 告知 タイプ:新しい 摘要:衝突時間(TTC)予測は、衝突防止において重要なタスクであり、ビデオに含まれる空間的・時間的な両方の局所的なパターンと全球的なパターンを捉えるために、正確な時間的予測が必要です。マルチスケールなビデオの特性に対処するため、我々は有効な TTC 予測に特化された新規の空間時間階層変形層ベースのアーキテクチャ CollideNet を提案します。空間ストリームでは、CollideNet は複数の解像度においてビデオの各フレームに対して情報を同時に集約します。時間ストリームでは、マルチスケール特徴エンコーディングとともに、非定常性、トレンド、季節性の成分を解離させます。我々の方法は、一般的に使用される 3 つの公開データセットにおいて、以前の方法と比較して最上級の性能を達成し、著しい差をつけて新たな最上級記録を樹立しました。我々はクロスデータセット評価を行い、我々の方法の一般化能力を分析し、ビデオデータのトレンドと季節性成分の解離の影響を可視化しました。我々はコードを https://github.com/DeSinister/CollideNet/ に公開しました。

Original Content

arXiv:2604.16240v1 Announce Type: new Abstract: Time-to-Collision (TTC) forecasting is a critical task in collision prevention, requiring precise temporal prediction and comprehending both local and global patterns encapsulated in a video, both spatially and temporally. To address the multi-scale nature of video, we introduce a novel spatiotemporal hierarchical transformer-based architecture called CollideNet, specifically catered for effective TTC forecasting. In the spatial stream, CollideNet aggregates information for each video frame simultaneously at multiple resolutions. In the temporal stream, along with multi-scale feature encoding, CollideNet also disentangles the non-stationarity, trend, and seasonality components. Our method achieves state-of-the-art performance in comparison to prior works on three commonly used public datasets, setting a new state-of-the-art by a considerable margin. We conduct cross-dataset evaluations to analyze the generalization capabilities of our method, and visualize the effects of disentanglement of the trend and seasonality components of the video data. We release our code at https://github.com/DeSinister/CollideNet/.