Back to list
arxiv_cs_cv 2026年2月10日

UniReason 1.0: 世界知識に基づく画像生成・編集のための統合された推論フレームワーク

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing

Translated: 2026/3/15 16:07:58
unireasonmultimodal-modelsimage-generationvisual-editingreasoning-ai

Japanese Translation

arXiv:2602.02437v3 Announce Type: replace 要約:統合されたマルチモーダルモデルは、深い推論を必要とする複雑な合成タスクに直面する困難を抱えており、通常、テキストから画像の生成と画像編集を相互接続された推論ステップとしてではなく、孤立した機能として扱っています。これに対応するため、私たちは UniReason という統合フレームワークを提案し、2 つの補完的な推論パラダイムを通じてこれらのタスクを調和させます。生成タスクへの世界知識強化されたテキスト推論を取り入れることで明示的な知識の推論を導き出し、修正機能を用いて自反論を通じて細粒度の編集的な視覚的微調整を行い、視覚的なエラーをさらに修正します。このアプローチにより、生成と編集は同一のアーキテクチャ内で統合され、人間の思考プロセスにおける計画後に追従する微調整段階を反映しています。我々は、このフレームワークをサポートするために、世界知識領域 5 つ(例:文化的常識、物理学など)を網羅した大規模な推論中心型データセット(約 30 万サンプル)と、視覚的微調整のためのエージェント生成コーパスを系統的に構築しました。大規模な実験は、UniReason が WISE、KrisBench、UniREditBench などの推論集約型ベンチマークで高度な性能を示しつつ、優れた一般的な合成能力を維持することを示しています。

Original Content

arXiv:2602.02437v3 Announce Type: replace Abstract: Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and image editing as isolated capabilities rather than interconnected reasoning steps. To address this, we propose UniReason, a unified framework that harmonizes these two tasks through two complementary reasoning paradigms. We incorporate world knowledge-enhanced textual reasoning into generation to infer implicit knowledge, and leverage editing capabilities for fine-grained editing-like visual refinement to further correct visual errors via self-reflection. This approach unifies generation and editing within a shared architecture, mirroring the human cognitive process of planning followed by refinement. We support this framework by systematically constructing a large-scale reasoning-centric dataset (~300k samples) covering five major knowledge domains (e.g., cultural commonsense, physics, etc.) for textual reasoning, alongside an agent-generated corpus for visual refinement. Extensive experiments demonstrate that UniReason achieves advanced performance on reasoning-intensive benchmarks such as WISE, KrisBench and UniREditBench, while maintaining superior general synthesis capabilities.