Back to list
適応的タスク再定義とエージェント実行を用いた画像編集の容易化
Making Image Editing Easier via Adaptive Task Reformulation with Agentic Executions
Translated: 2026/4/20 10:43:57
Japanese Translation
arXiv:2604.15917v1 発表タイプ: 新
要旨: 指示による画像編集は、最近の生成モデルの進展により著しく向上したが、依然として多数の目に見えた単純なケースで信頼性の結果をもたらさないままである。我々は、これらの失敗の多くはモデルの容量不足ではなく、小さすぎる対象、明示されていない空間関係、または規定されていない指示を伴うように不適切に設定された編集タスクから生じていることを観察した。本稿では、画像編集の失敗をタスク設定の問題として定義し、基模型を変更せずに編集パフォーマンスを向上させる適応的タスク再定義フレームワークを提案する。我々の主要なアイデアは、元の画像-指示ペアを分析、ルーティング、再定義、そしてフィードバック駆動の精緻化を通じて MLLM エージェントによって動的に決定され実行される操作の列へ変換することにある。Qwen Image Edit および Nano Banana など多様な編集バックボーン、 ImgEdit、PICA、および RePlan を含む複数のベンチマークにおける実験は一貫した改善を示しており、特に困難なケースにおいて大きな成果をもたらした。これらの結果は、タスク再定義が重要ながまだ探索されていない要因であることを示しており、既存のモデルの有効な動作 regime に編集タスクをよりよく一致させることで、多大な成果が達成可能であるという証拠を提供する。
Original Content
arXiv:2604.15917v1 Announce Type: new
Abstract: Instruction guided image editing has advanced substantially with recent generative models, yet it still fails to produce reliable results across many seemingly simple cases. We observe that a large portion of these failures stem not from insufficient model capacity, but from poorly formulated editing tasks, such as those involving small targets, implicit spatial relations, or under-specified instructions. In this work, we frame image editing failures as a task formulation problem and propose an adaptive task reformulation framework that improves editing performance without modifying the underlying model. Our key idea is to transform the original image-instruction pair into a sequence of operations that are dynamically determined and executed by a MLLM agent through analysis, routing, reformulation, and feedback-driven refinement. Experiments on multiple benchmarks, including ImgEdit, PICA, and RePlan, across diverse editing backbones such as Qwen Image Edit and Nano Banana, show consistent improvements, with especially large gains on challenging cases. These results suggest that task reformulation is a critical but underexplored factor, and that substantial gains can be achieved by better matching editing tasks to the effective operating regime of existing models.