Back to list
PBR Inspirationインスピレートされた可制御散乱のPipeline for画像生成
PBR-Inspired Controllable Diffusion for Image Generation
Translated: 2026/2/14 6:04:04
Japanese Translation
要約:テキストをイメージに導くのは最近になって進歩しましたが、合成シーン中の幾何学的レイアウトとPBR素材特性をコントロールするのは困難です。我々はまずテキストの提示からグリッガーガジェット(アルベド、 normals、depth、roughness、シェーディング、metallic)を作るPipeline(パイプライン)を提案し、それに対してピラー・バーンのようなニューラルネットワークを通して最終画像を描画します。中間の表現形態は細かいコントロールを持つため、ユーザーは特定のグリッガーガジェットチャンネルからコピーし貼りかえることも、 irradiance チャンネルにマスクを適用することにより、照明を當地で調整也可能しいです。した結果、リアルなオブジェクトが軽々しく、虚構的なシーンに統合されるのです。ユーザーを友好的なシーンの説明から画像の描画まで分けると、我々の方法は、詳細な後生成コントロールと効果的でテキストに基づく合成間に絶妙なバランスを提供します。定量的評価と156人の参加者に対する使用者の研究を通じてその有効性を示しました、本質的には、グリッガーガジェットコントロールはテキストガイドされた画像生成の柔軟性に拡張しています。
Original Content
arXiv:2503.15147v2 Announce Type: replace
Abstract: Despite recent advances in text-to-image generation, controlling geometric layout and PBR material properties in synthesized scenes remains challenging. We present a pipeline that first produces a G-buffer (albedo, normals, depth, roughness, shading, and metallic) from a text prompt and then renders a final image through a PBR-inspired branch network. This intermediate representation enables fine-grained control: users can copy and paste within specific G-buffer channels to insert or reposition objects, or apply masks to the irradiance channel to adjust lighting locally. As a result, real objects can be seamlessly integrated into virtual scenes. By separating user-friendly scene description from image rendering, our method offers a practical balance between detailed post-generation control and efficient text-driven synthesis. We demonstrate its effectiveness through quantitative evaluations and a user study with 156 participants, showing consistent human preference over strong baselines and confirming that G-buffer control extends the flexibility of text-guided image generation.