Back to list
arxiv_cs_cv 2026年4月20日

コンペティションからコウペティションへ:テキスト誘導によるコウペティティブなトレーニングフリー画像編集

From Competition to Coopetition: Coopetitive Training-Free Image Editing Based on Text Guidance

Translated: 2026/4/20 10:44:12
image-editingdiffusion-modelszero-shot-trainingattention-mechanismmultimodal-learning

Japanese Translation

arXiv:2604.15948v1 Announce Type: new Abstract: テキスト誘導画像編集は、現代のマルチメディアコンテンツ作成において重要な課題として、トレーニングフリー手法の進展により、追加の最適化が不要という画期的な進歩を遂げています。近年の進展にもかかわらず、既存の手法は、編集ブランチと復元ブランチがそれぞれ異なる目的関数によって独立して駆動され、ターゲットプロンプトとソースプロンプトとの照合を最大化しようとする競合パラダイムによって制約されています。この対立構造は、ブランチ間の調整不足により、意味的な衝突や予測不能な結果を生じさせます。これらの課題を克服すべく、私たちは「CoEdit」と名付けた新しいゼロショット枠組みを提案しました。CoEdit は、注視制御を競合からコウペティティブな交渉へと変換し、空間および時間次元全体において編集の調和を実現します。空間的には、CoEdit はブランチ間の方向性エントロピー相互作用を定量化する「デュアル・エントロピー注視操作」を導入し、注視制御を調和最大化問題として再定義することで、編集可能領域と保持すべき領域のローカライゼーションを向上させます。時間的には、「エントロピー潜空間精緻化機構」を提案し、時間経過に伴う潜空間表現を動的に調整し、累積編集エラーを最小化し、デノイジング過程全体を通じて一貫した意味的な遷移を確保します。さらに、私たちは、意味編集と背景の忠実度を同時に評価する複合指標である「忠実度制約編集スコア」を提案しました。標準ベンチマークで行われた大規模実験は、CoEdit が編集品質と構造保持の双方で卓越した性能を発揮し、視覚的模態とテキスト模態の効果的な相互作用を可能にすることで、マルチメディア情報の利用効率を向上させることを示しています。コードは https://github.com/JinhaoShen/CoEdit で入手可能です。

Original Content

arXiv:2604.15948v1 Announce Type: new Abstract: Text-guided image editing, a pivotal task in modern multimedia content creation, has seen remarkable progress with training-free methods that eliminate the need for additional optimization. Despite recent progress, existing methods are typically constrained by a competitive paradigm in which the editing and reconstruction branches are independently driven by their respective objectives to maximize alignment with target and source prompts. The adversarial strategy causes semantic conflicts and unpredictable outcomes due to the lack of coordination between branches. To overcome these issues, we propose Coopetitive Training-Free Image Editing (CoEdit), a novel zero-shot framework that transforms attention control from competition to coopetitive negotiation, achieving editing harmony across spatial and temporal dimensions. Spatially, CoEdit introduces Dual-Entropy Attention Manipulation, which quantifies directional entropic interactions between branches to reformulate attention control as a harmony-maximization problem, eventually improving the localization of editable and preservable regions. Temporally, we present Entropic Latent Refinement mechanism to dynamically adjust latent representations over time, minimizing accumulated editing errors and ensuring consistent semantic transitions throughout the denoising trajectory. Additionally, we propose the Fidelity-Constrained Editing Score, a composite metric that jointly evaluates semantic editing and background fidelity. Extensive experiments on standard benchmarks demonstrate that CoEdit achieves superior performance in both editing quality and structural preservation, enhancing multimedia information utilization by enabling more effective interaction between visual and textual modalities. The code will be available at https://github.com/JinhaoShen/CoEdit.