Back to list
WorldEdit: 知識に基づいたベンチマークを用いた オープン・ワールドの画像編集に向けて
WorldEdit: Towards Open-World Image Editing with a Knowledge-Informed Benchmark
Translated: 2026/3/15 17:04:52
Japanese Translation
arXiv:2602.07095v1 発表 タイプ:新
要約:画像編集モデルの最近の進展は、属性操作、スタイル転送、ポーズ合成などの明確な指示を実行する際の変革的な能力を示しています。しかし、これらのモデルは、視覚的変化の原因を説明せずに結果を明示的に詳細に述べるような暗黙的な編集指示に対処する際に課題に直面することがあります。これらの制限は、既存のモデルが暗黙的な指示に必要な複雑な世界知識と推理に対応できない一貫した編集戦略に依存しているため生じます。このギャップに対処するため、我々は世界駆動の画像編集を可能にするために特化したデータセット、 extbf{WorldEdit} を導入します。WorldEdit は、現実世界の因果論理と一致するように書き換えされた指示によって導かれた高品質な編集サンプルで構成されています。さらに、既存のモデルの因果的編集シナリオでのパフォーマンスを評価するための extbf{WorldEdit-Test} を提供します。WorldEdit を用いることで、Bagel などのモデルの微調整用の 2 ステージトレーニングフレームワークを作成し、因果検証報酬を統合しました。我々の結果は、提案されたデータセットと手法が GPT-4o と Nano-Banana とのギャップを著しく縮め、指示の従順さだけでなく、多くのオープンソースシステムが通常苦戦する知識の妥当性においてさえ、競争力のあるパフォーマンスを示すと示しています。
Original Content
arXiv:2602.07095v1 Announce Type: new
Abstract: Recent advances in image editing models have demonstrated remarkable capabilities in executing explicit instructions, such as attribute manipulation, style transfer, and pose synthesis. However, these models often face challenges when dealing with implicit editing instructions, which describe the cause of a visual change without explicitly detailing the resulting outcome. These limitations arise because existing models rely on uniform editing strategies that are not equipped to handle the complex world knowledge and reasoning required for implicit instructions. To address this gap, we introduce \textbf{WorldEdit}, a dataset specifically designed to enable world-driven image editing. WorldEdit consists of high-quality editing samples, guided by paraphrased instructions that align with real-world causal logic. Furthermore, we provide \textbf{WorldEdit-Test} for evaluating the existing model's performance on causal editing scenarios. With WorldEdit, we use a two-stage training framework for fine-tuning models like Bagel, integrating with a causal verification reward. Our results show that the proposed dataset and methods significantly narrow the gap with GPT-4o and Nano-Banana, demonstrating competitive performance not only in instruction following but also in knowledge plausibility, where many open-source systems typically struggle.