Back to list
arxiv_cs_cv 2026年4月24日

OmniFit: スケール不感度の高密度ランドマーカー予測によるマルチモーダル 3D ボディフィット

OmniFit: Multi-modal 3D Body Fitting via Scale-agnostic Dense Landmark Prediction

Translated: 2026/4/24 19:45:10
3d-body-fittingmulti-modalscale-agnosticsmpl-xdeep-learning

Japanese Translation

arXiv:2604.21575v1 Announce Type: new Abstract: 衣服を着た 3D ヒューマンアセットの下敷きとなるボディモデルへのフィットは広範に研究されているにもかかわらず、既存の多くのアプローチは点雲やマルチビュー画像などのシングルモーダルまたはマルチモーダル入力に限定されており、多くの場合既知の計量スケールを必要としている。この制約は、特にスケール歪みが一般的な AI 生成アセットに対しては頻繁に不切実である。我々は、フルスキャン、部分深度観測、画像キャプチャを含む多様なマルチモーダル入力をシームレスに処理でき、かつ実物と合成アセットの両方に対してスケール不感度である OmniFit を提案する。我々の主要な革新は、表面点を高密度ボディランドマーカーに直接マッピングする単純ながら効果的なコンディショナルトランスフォーマーデコーダーであり、これらのランドマーカーは SMPL-X パラメータフィットに使用される。また、欠落している幾何学的情報を補完するために視覚的な手がかりを取り扱うオプションのプラグアンドプレイ画像アダプターを含む。さらに、正規のボディプロポーションに被験者を再スケールする専属のスケール予測者を導入する。OmniFit は、日常着用および緩い衣類のシナリオにおいて、最前線の手法と比較して 57.1 から 80.9% 向上し、圧倒的な性能を示した。我々の知識によると、それはマルチビュー最適化のベースラインを超えた最初のボディフィット法であり、CAPE と 4D-DRESS ベンチマーク上でミリメートルレベルの精度を達成した最初の法である。

Original Content

arXiv:2604.21575v1 Announce Type: new Abstract: Fitting an underlying body model to 3D clothed human assets has been extensively studied, yet most approaches focus on either single-modal inputs such as point clouds or multi-view images alone, often requiring a known metric scale. This constraint is frequently impractical, especially for AI-generated assets where scale distortion is common. We propose OmniFit, a method that can seamlessly handle diverse multi-modal inputs, including full scans, partial depth observations, and image captures, while remaining scale-agnostic for both real and synthetic assets. Our key innovation is a simple yet effective conditional transformer decoder that directly maps surface points to dense body landmarks, which are then used for SMPL-X parameter fitting. In addition, an optional plug-and-play image adapter incorporates visual cues to compensate for missing geometric information. We further introduce a dedicated scale predictor that rescales subjects to canonical body proportions. OmniFit substantially outperforms state-of-the-art methods by 57.1 to 80.9 percent across daily and loose clothing scenarios. To the best of our knowledge, it is the first body fitting method to surpass multi-view optimization baselines and the first to achieve millimeter-level accuracy on the CAPE and 4D-DRESS benchmarks.