Back to list
arxiv_cs_cv 2026年4月20日

GAViD:文脈感知グループ感情認識のための大規模マルチモーダルデータセット

GAViD: A Large-Scale Multimodal Dataset for Context-Aware Group Affect Recognition from Videos

Translated: 2026/4/20 10:46:01
gavidmultimodal-dataaffect-recognitiondeep-learningvideo-analysis

Japanese Translation

arXiv:2604.16214v1 Announce Type: new Abstract: 複雑な環境における人間同士の相互作用をモデル化・分析するために、実世界の社会的システムにおける感情動態を理解することは基本的です。グループ感情は、人間同士の複雑に絡み合った相互作用、文脈的影響、および行動的シグナルから生じ、その定量的モデル化は計算社会学の難問です。しかし、文脈的および行動的可変性に形作られたマルチモーダル社会的相互作用の内在的な複雑さ、そして限定された大規模ラベル付けされたデータセットのせいで、野外シナリオにおけるグループ感情の計算モデル化は依然として困難です。マルチモーダルおよび文脈的信息でラベル付けされた包括的なデータセットの欠如は、さらにこの分野の進展を制限しています。これを解決するために、私たちは文脈からビデオ感情(GAViD)データセットを導入しました。これは、5,091 人のビデオクリップからなるマルチモーダルデータセットで、ビデオ、音声、文脈を含むデータが含まれ、三元の情動と離散的な感情ラベルでアノテートされており、VideoGPT 生成された文脈メタデータと人間がアノテートした行動のヒントで富められています。また、マルチモーダル文脈感知グループ感情認識ネットワーク(CAGNet)も提示します。CAGNet は GAViD で 63.20% のテスト精度を示し、最先端のパフォーマンスと同等です。データセットとコードは github.com/deepakkumar-iitr/GAViD に利用可能です。

Original Content

arXiv:2604.16214v1 Announce Type: new Abstract: Understanding affective dynamics in real-world social systems is fundamental to modeling and analyzing human-human interactions in complex environments. Group affect emerges from intertwined human-human interactions, contextual influences, and behavioral cues, making its quantitative modeling a challenging computational social systems problem. However, computational modeling of group affect in in-the-wild scenarios remains challenging due to limited large-scale annotated datasets and the inherent complexity of multimodal social interactions shaped by contextual and behavioral variability. The lack of comprehensive datasets annotated with multimodal and contextual information further limits advances in the field. To address this, we introduce the Group Affect from ViDeos (GAViD) dataset, comprising 5091 video clips with multimodal data (video, audio and context), annotated with ternary valence and discrete emotion labels and enriched with VideoGPT-generated contextual metadata and human-annotated action cues. We also present Context-Aware Group Affect Recognition Network (CAGNet) for multimodal context-aware group affect recognition. CAGNet achieves 63.20\% test accuracy on GAViD, comparable to state-of-the-art performance. The dataset and code are available at github.com/deepakkumar-iitr/GAViD.