Back to list
arxiv_cs_cv 2026年4月24日

Micro-DualNet: 微動作認識のためのデュアルパス空間時間ネットワーク

Micro-DualNet: Dual-Path Spatio-Temporal Network for Micro-Action Recognition

Translated: 2026/4/24 19:40:36
micro-actionvideo-understandingdual-path-networkspatio-temporalcomputer-vision

Japanese Translation

arXiv:2604.21011v1 発表タイプ:new 摘要: 微動作(Micro-actions)とは、掻き頭や手指のタップなど、1〜3秒という極めて短時間で局所的に発生する繊細な動きを指します。この種の繊細な動作は社会的コミュニケーションや自然なインタラクションに不可欠であり、詳細な映像理解(fine-grained video understanding)にとって極めて重要ですが、現在のコンピュータビジョンシステムはそれを十分に理解していません。我々は、微動作が空間構成に基づいて定義されるものから、時間的ダイナミクスに基づいて表されるものまで、多様な空間時間特性を呈するという根本的な課題を特定しました。既存の単一の空間時間分解を前提とした手法では、この多様性を対応できないためです。我々は、解剖学的に裏打ちされた空間エンティティを並列の空間時間(ST)パスと時間空間(TS)パスで処理するデュアルパスネットワークを提案しました。ST パスは空間構成を捉え、次に時間的ダイナミクスをモデル化し、TS パスはその順序を逆に、時間的ダイナミクスを優先します。固定された融合ではなく、各身体部位が自らの最適な処理好みを学習できるエンティティレベルの適応的なルーティングを導入し、それに加えてクロスパスの連合性を強制する相互動作整合性(MAC)損失関数も併用しました。大規模な実験により、MA-52 データセットで競争力的な性能、iMiGUE データセットでは最新最善の結果を達成したことを示しました。我々の研究は、微動作固有の複雑さに合わせたアーキテクチャ的適応が、詳細な映像理解の進歩にとって必須であることを明らかにしています。

Original Content

arXiv:2604.21011v1 Announce Type: new Abstract: Micro-actions are subtle, localized movements lasting 1-3 seconds such as scratching one's head or tapping fingers. Such subtle actions are essential for social communication, ubiquitously used in natural interactions, and thus critical for fine-grained video understanding, yet remain poorly understood by current computer vision systems. We identify a fundamental challenge: micro-actions exhibit diverse spatio-temporal characteristics where some are defined by spatial configurations while others manifest through temporal dynamics. Existing methods that commit to a single spatio-temporal decomposition cannot accommodate this diversity. We propose a dual-path network that processes anatomically-grounded spatial entities through parallel Spatial-Temporal (ST) and Temporal-Spatial (TS) pathways. The ST path captures spatial configurations before modeling temporal dynamics, while the TS path inverts this order to prioritize temporal dynamics. Rather than fixed fusion, we introduce entity-level adaptive routing where each body part learns its optimal processing preference, complemented by Mutual Action Consistency (MAC) loss that enforces cross-path coherence. Extensive experiments demonstrate competitive performance on MA-52 dataset and state-of-the-art results on iMiGUE dataset. Our work reveals that architectural adaptation to the inherent complexity of micro-actions is essential for advancing fine-grained video understanding.