Back to list
arxiv_cs_ai 2026年2月10日

スイッチ、感情、そして動き:VLMに基づいてデバイス側で利用できる多モーダルエンデューモラフレームワーク

Bridging Speech, Emotion, and Motion: a VLM-based Multimodal Edge-deployable Framework for Humanoid Robots

Translated: 2026/3/7 12:34:42
vision-language-modelmultimodal-humanoid-robotsemotion-aware-commsedge-deployable-systems

Japanese Translation

有効な人ロボティックスイタとが満遍なく異なるモーダルエモーションを持つ多機能の表現を必要とする。一方、実世界での展開ニーズは連続的なクラウド接続なしで自立可能の一機ダンスソースを使用するオンデバイスソリューションである。 <strong>speech emotion motion</strong>shem²、私たちを結びつけた多モーダルインタラクションにわたる視覚言語モデルに基づいたフレームワーク、 これにはユーザーコンテキストのメタデータが捉えられるマルチモーダル認識モジュール、応答プランニング用の思考連鎖とセミナム、新しく精確なtemporalコラボレーションを保証する機能があります。 <strong>speech edge</strong>shemó、この後にはクラウドベースとe学给のバージョン有効な学習効果が含まれています。これはエッジハードウェアで効率的に動作し、相対的なパフォーマンス95%セミナムを維持します。 <strong>speech>第×> </strong><strong>speech>巴难</strong>保证は、本コンセプトが自然性×情感の明確さ、モアランドの連続性に大幅に優れた無一基であることを確認します。 </strong>natural expression humanoidロボットを応用し、多様な実世界の環境へと進展。

Original Content

arXiv:2602.07434v1 Announce Type: cross Abstract: Effective human-robot interaction requires emotionally rich multimodal expressions, yet most humanoid robots lack coordinated speech, facial expressions, and gestures. Meanwhile, real-world deployment demands on-device solutions that can operate autonomously without continuous cloud connectivity. To bridging \underline{\textit{S}}peech, \underline{\textit{E}}motion, and \underline{\textit{M}}otion, we present \textit{SeM$^2$}, a Vision Language Model-based framework that orchestrates emotionally coherent multimodal interactions through three key components: a multimodal perception module capturing user contextual cues, a Chain-of-Thought reasoning for response planning, and a novel Semantic-Sequence Aligning Mechanism (SSAM) that ensures precise temporal coordination between verbal content and physical expressions. We implement both cloud-based and \underline{\textit{e}}dge-deployed versions (\textit{SeM$^2_e$}), with the latter knowledge distilled to operate efficiently on edge hardware while maintaining 95\% of the relative performance. Comprehensive evaluations demonstrate that our approach significantly outperforms unimodal baselines in naturalness, emotional clarity, and modal coherence, advancing socially expressive humanoid robotics for diverse real-world environments.