Back to list
arxiv_cs_cv 2026年2月10日

RoadSafe365 ベンチマークを用いた実世界での交通安全の理解

Understanding Real-World Traffic Safety through RoadSafe365 Benchmark

Translated: 2026/3/15 17:05:29
roadsafe365traffic-safetyvision-languagebenchmarksmultimodal-learning

Japanese Translation

arXiv:2602.07212v1 発表 タイプ: 新 アブストラクト: 近年、交通に関するベンチマークが多モーダルデータ分析を進展させてきたが、公式な安全基準に整合した体系的な評価は一般的に欠如している。このギャップを埋めるために、我々は膨大で多様な実世界動画データコレクションに基づき、交通安全を微細に分析支援する大規模ビジョン・言語ベンチマークである RoadSafe365 を紹介する。以前の研究が主に粗な事故特定に焦点を当てたのに対し、RoadSafe365 は階層分類体系を用いて独立して編集され、体系的に整理されており、これは衝突、事象、違反の基礎的な定義を精製・拡張し、公式な交通安全基準とデータ駆動の交通理解システムの間をつなぐ。RoadSafe365 は多様な交通イベントタイプ、環境的文脈、および相互作用のシナリオにわたって豊富な属性付与を提供し、ダッシュカメラと監視カメラの両方から 36,196 本の付与済みクリップを生成する。各クリップは、36K の詳細なシーン説明を備えた 864K の候補オプションと 8.4K のユニークな回答を含む複数選択質問・回答セットとセットになっている。これらはすべてビジョン・言語理解および推論のために設計されている。我々は強固なベースラインを確立し、RoadSafe365 での微調整時に一貫した向上を観察する。また、実データおよびシンセティックデータ上のクロスドメイン実験も、その有効性をさらに検証した。大規模トレーニングと標準化された評価のために設計された RoadSafe365 は、実世界での交通安全分析における再現性の高い研究を進展させるための包括的なベンチマークを提供する。

Original Content

arXiv:2602.07212v1 Announce Type: new Abstract: Although recent traffic benchmarks have advanced multimodal data analysis, they generally lack systematic evaluation aligned with official safety standards. To fill this gap, we introduce RoadSafe365, a large-scale vision-language benchmark that supports fine-grained analysis of traffic safety from extensive and diverse real-world video data collections. Unlike prior works that focus primarily on coarse accident identification, RoadSafe365 is independently curated and systematically organized using a hierarchical taxonomy that refines and extends foundational definitions of crash, incident, and violation to bridge official traffic safety standards with data-driven traffic understanding systems. RoadSafe365 provides rich attribute annotations across diverse traffic event types, environmental contexts, and interaction scenarios, yielding 36,196 annotated clips from both dashcam and surveillance cameras. Each clip is paired with multiple-choice question-answer sets, comprising 864K candidate options, 8.4K unique answers, and 36K detailed scene descriptions collectively designed for vision-language understanding and reasoning. We establish strong baselines and observe consistent gains when fine-tuning on RoadSafe365. Cross-domain experiments on both real and synthetic datasets further validate its effectiveness. Designed for large-scale training and standardized evaluation, RoadSafe365 provides a comprehensive benchmark to advance reproducible research in real-world traffic safety analysis.