Back to list
arxiv_cs_lg 2026年4月24日

MOMO: シームレスな物理的、口頭、および図形的なロボットスキル学習と適応のためのフレームワーク

MOMO: A framework for seamless physical, verbal, and graphical robot skill learning and adaptation

Translated: 2026/4/24 20:05:14
roboticsllmmotion-primitiveshuman-robot-interactionautomation

Japanese Translation

arXiv:2604.20468v2 発表タイプ:クロス 要約: 産業用ロボットアプリケーションでは、非専門家が異なるタスクと環境に対して容易に適応できるフレキシブルなシステムが必要とされています。ただし、異なる適応は異なる対話モダリティ的利益をもたらします。私たちが提示するインタラクティブなフレームワークは、3 つの補完的なモダリティを通じたロボットスキル適応を可能にします:精密な空間修正のための運動感覚的タッチ、高度な半義的修正のための自然な言語、そして幾何学的関係や経路を視覚化し、パラメータを検査および調整し、ドラッグ&ドロップによる経由点を編集するための図形的な Web インターフェース。このフレームワークは 5 つの構成要素を統合します:エネルギーベースの人間の意図検出、定義された機能を選択しパラメータ化する(コードを生成するのではなく)ためのツールベースの LLM アーキテクチャによる安全な自然な言語適応、動コードエンコーディングのための核線化運動原型 (KMPs)、導されたデモンストレーションレコーディングのための確率的バーチャルフィクチャー、そして表面仕上げのためのエルゴリック制御。私たちが示したように、このツールベースの LLM アーキテクチャは KMPs からエルゴリック制御へのスキル適応を一般化し、音声コマンドによる表面仕上げを可能にします。Automatica 2025 貿易の 7-DoF トルク制御されたロボットでの検証は、私たちのアプローチが産業環境における実用的な適用性を示しました。

Original Content

arXiv:2604.20468v2 Announce Type: cross Abstract: Industrial robot applications require increasingly flexible systems that non-expert users can easily adapt for varying tasks and environments. However, different adaptations benefit from different interaction modalities. We present an interactive framework that enables robot skill adaptation through three complementary modalities: kinesthetic touch for precise spatial corrections, natural language for high-level semantic modifications, and a graphical web interface for visualizing geometric relations and trajectories, inspecting and adjusting parameters, and editing via-points by drag-and-drop. The framework integrates five components: energy-based human-intention detection, a tool-based LLM architecture (where the LLM selects and parameterizes predefined functions rather than generating code) for safe natural language adaptation, Kernelized Movement Primitives (KMPs) for motion encoding, probabilistic Virtual Fixtures for guided demonstration recording, and ergodic control for surface finishing. We demonstrate that this tool-based LLM architecture generalizes skill adaptation from KMPs to ergodic control, enabling voice-commanded surface finishing. Validation on a 7-DoF torque-controlled robot at the Automatica 2025 trade fair demonstrates the practical applicability of our approach in industrial settings.