Back to list
ディフューン変換器を用いたエフェクト感応型コンテキスト内インパントによる幾何学的画像編集
Geometric Image Editing via Effects-Sensitive In-Context Inpainting with Diffusion Transformers
Translated: 2026/3/16 14:04:46
Japanese Translation
arXiv:2602.08388v1 Announce Type: new
Abstract: 最近、ディフューションモデルの進展によって画像編集が大幅に改善されました。しかし、移動、回転、スケーリングのような幾何学的変換の処理には依然として課題が残っています。特に複雑なシーンでは、既存のアプローチは 2 つの主要な制限に苦しんでいます:(1) オブジェクトの移動、回転、スケーリングの幾何学的編集を正確に行うことが難しいこと (2) 複雑な光や影のエフェクトを不十分なモデル化を行い、不自然な結果をもたらすことです。これらの問題を解決するために、我々は幾何学的変換を正確なオブジェクト編集のために統合したディフューション変換器モジュールを通じてコンテキスト生成を活用する GeoEdit というフレームワークを提案します。さらに、我々は不自然な光と影のエフェクトのモデル化を改善したリアルリティ向上のためのエフェクト感応的注意を導入します。さらにトレーニングをサポートするために、我々は 12 万組以上の高品質な画像対を含む大規模な幾何学的編集セット RS-Objects を構築し、モデルを幾何学的な正確な編集を学習させながら、現実的な光と影を生成させます。公開ベンチマークでの大規模実験により、GeoEdit は視覚的な品質、幾何学的な精度、そしてリアルリティにおいて、state-of-the-art の手法を一貫して凌駕することが示されました。
Original Content
arXiv:2602.08388v1 Announce Type: new
Abstract: Recent advances in diffusion models have significantly improved image editing. However, challenges persist in handling geometric transformations, such as translation, rotation, and scaling, particularly in complex scenes. Existing approaches suffer from two main limitations: (1) difficulty in achieving accurate geometric editing of object translation, rotation, and scaling; (2) inadequate modeling of intricate lighting and shadow effects, leading to unrealistic results. To address these issues, we propose GeoEdit, a framework that leverages in-context generation through a diffusion transformer module, which integrates geometric transformations for precise object edits. Moreover, we introduce Effects-Sensitive Attention, which enhances the modeling of intricate lighting and shadow effects for improved realism. To further support training, we construct RS-Objects, a large-scale geometric editing dataset containing over 120,000 high-quality image pairs, enabling the model to learn precise geometric editing while generating realistic lighting and shadows. Extensive experiments on public benchmarks demonstrate that GeoEdit consistently outperforms state-of-the-art methods in terms of visual quality, geometric accuracy, and realism.