Back to list
Open-H-Embodiment: ファウンデーション・モデルを医療ロボット分野に統合するための大規模データセットの導入
Open-H-Embodiment: A Large-Scale Dataset for Enabling Foundation Models in Medical Robotics
Translated: 2026/4/24 20:22:31
Japanese Translation
arXiv:2604.21017v1 Announce Type: cross
摘要
自律医療ロボットは、患者のアウトカムを向上させ、提供者の負担を軽減し、医療アクセスを民主化し、人間を超越する正確性を可能にする有望な存在である。しかし、自律医療ロボット技術は、既存の医療ロボットデータセットが小さく、単一エンボディメントに限定され、かつオープンに共有されていないという根本的なデータ問題により制限されている。これにより、この分野の進展に必要なファウンデーション・モデルの開発が阻害されている。本稿では、現在までに最も大規模かつオープンな医療ロボットビデオデータセット、すなわち Open-H-Embodiment を導入する。このデータセットは、49 カ所の機関を跨ぎ、CMR Versius、Intuitive Surgical の da Vinci、da Vinci Research Kit (dVRK)、Rob Surgical BiTrack、Virtual Incision の MIRA、Moon Surgical Maestro、および多様なカスタムシステムを含む複数のロボットプラットフォームをカバーし、外科的操作、ロボット超音波、および内視鏡検査の各プロセスにわたる。我々は、このデータセットによって研究が促進されたと示すために、2 つのファウンデーション・モデルを提示する。GR00T-H は、医療ロボットの分野において初めてオープンなファウンデーション・ビジョン言語アクション・モデルである。それは、構造縫合ベンチマークにおいて全工程完了を達成した唯一の評価モデルであり(試行の 25% に対して他はすべて 0%)、体外縫合シーケンスの 29 ステップにおいて平均成功確率が 64% を達成している。また、我々は Cosmos-H-Surgical-Simulator をトレーニングした。これは、ワンチェックポイントから単一プラットフォームで複数エンボディメント外科シミュレーションを可能にする初のアクション制約されたワールド・モデルであり、9 つのロボットプラットフォームを跨ぎ、シノ(in silico)におけるポリシー評価および医療分野用のシンセティック・データ生成をサポートする。これらの結果は、オープンで大規模な医療ロボットデータ収集が、研究コミュニティにとってロボット学習、ワールド・モデリング、それを超えた進展のための批判的インフラストラクチャとして機能できることを示唆している。
Original Content
arXiv:2604.21017v1 Announce Type: cross
Abstract: Autonomous medical robots hold promise to improve patient outcomes, reduce provider workload, democratize access to care, and enable superhuman precision. However, autonomous medical robotics has been limited by a fundamental data problem: existing medical robotic datasets are small, single-embodiment, and rarely shared openly, restricting the development of foundation models that the field needs to advance. We introduce Open-H-Embodiment, the largest open dataset of medical robotic video with synchronized kinematics to date, spanning more than 49 institutions and multiple robotic platforms including the CMR Versius, Intuitive Surgical's da Vinci, da Vinci Research Kit (dVRK), Rob Surgical BiTrack, Virtual Incision's MIRA, Moon Surgical Maestro, and a variety of custom systems, spanning surgical manipulation, robotic ultrasound, and endoscopy procedures. We demonstrate the research enabled by this dataset through two foundation models. GR00T-H is the first open foundation vision-language-action model for medical robotics, which is the only evaluated model to achieve full end-to-end task completion on a structured suturing benchmark (25% of trials vs. 0% for all others) and achieves 64% average success across a 29-step ex vivo suturing sequence. We also train Cosmos-H-Surgical-Simulator, the first action-conditioned world model to enable multi-embodiment surgical simulation from a single checkpoint, spanning nine robotic platforms and supporting in silico policy evaluation and synthetic data generation for the medical domain. These results suggest that open, large-scale medical robot data collection can serve as critical infrastructure for the research community, enabling advances in robot learning, world modeling, and beyond.