Back to list
arxiv_cs_cv 2026年4月20日

HiFi-Inpaint: 詳細保持型ヒューマン・プロダクト画像生成のための高忠実度参照ベースインパントーピングへ

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Translated: 2026/4/20 10:51:18
inpaintingcomputer-visionadvertisingdeep-learningreference-based

Japanese Translation

arXiv:2603.02210v3 公告種別:更新 要約: ヒューマン・プロダクト画像は、人物と製品の融合を提示するものであり、広告、電子商業、デジタルマーケティングにおいて極めて重要な役割を果たしています。このような画像を生成するための根本的な課題は、製品の詳細を高忠実度で保存することにあります。既存のパラダイムの中で、参照ベースのインパントーピングは、製品の参照画像を利用する過程を通じてインパントーピングを誘導することにより、ターゲット指向的な解決策を提供します。しかし、それでも三大面の限界が存在します: 多様な大規模なトレーニングデータが不足していること、現在のモデルが製品の詳細保存に焦点を当てることは難しいこと、そして正確なガイドのために粗い監督(コース監督)が機能しないこと。これらの問題を解決するため、私らはヒューマン・プロダクト画像の生成に特化された高忠実度参照ベースインパントーピングフレームワークである HiFi-Inpaint を提案しました。HiFi-Inpaint は、細粒度な製品特徴を洗練させるために共有拡張注意力(Shared Enhancement Attention: SEA)を導入し、高周波マップを使用する正確なピクセルレベルの監督を強制するために詳細認識損失関数(Detail-Aware Loss: DAL)を追加しました。さらに、自己生成データからサンプルを厳選し、自動フィルタリングで処理された新しいデータセット HP-Image-40K を構築しました。実験結果は、HiFi-Inpaint が最先端のパフォーマンスを達成し、詳細保持型ヒューマン・プロダクト画像を提供することを示しています。

Original Content

arXiv:2603.02210v3 Announce Type: replace Abstract: Human-product images, which showcase the integration of humans and products, play a vital role in advertising, e-commerce, and digital marketing. The essential challenge of generating such images lies in ensuring the high-fidelity preservation of product details. Among existing paradigms, reference-based inpainting offers a targeted solution by leveraging product reference images to guide the inpainting process. However, limitations remain in three key aspects: the lack of diverse large-scale training data, the struggle of current models to focus on product detail preservation, and the inability of coarse supervision for achieving precise guidance. To address these issues, we propose HiFi-Inpaint, a novel high-fidelity reference-based inpainting framework tailored for generating human-product images. HiFi-Inpaint introduces Shared Enhancement Attention (SEA) to refine fine-grained product features and Detail-Aware Loss (DAL) to enforce precise pixel-level supervision using high-frequency maps. Additionally, we construct a new dataset, HP-Image-40K, with samples curated from self-synthesis data and processed with automatic filtering. Experimental results show that HiFi-Inpaint achieves state-of-the-art performance, delivering detail-preserving human-product images.