Back to list
A Large-Scale Triplet Dataset を用いたコンテキスト上でのトーンスタイル転送へのアプローチ
Towards In-Context Tone Style Transfer with A Large-Scale Triplet Dataset
Translated: 2026/4/20 10:45:25
Japanese Translation
arXiv:2604.16114v1 Announce Type: new
トーンスタイル転送(Tone Style Transfer)は、フォトレタッチにおいて、参考画像のスタイルトーンを与えられたコンテンツ画像に適応させることを目的としています。しかし、スタイル付きグランド・トゥルースを含む高品質な大規模トリプレットデータセットの不足のため、既存の方法は自己教師あり学習や代用目標に頼らざるを得ず、モデルの能力が制限されています。このギャップを緩和するため、私たちは TST100K と称する、10 万組のコンテンツ-参考-スタイル付きトリプレットを含む大規模データセットを構築するためのデータ構築パイプラインを設計しました。このパイプラインの核心には、各トリプレットに対する厳密なスタイル整合性を確保するためのトーンスタイルスコアーを訓練することにあります。さらに、既存の方法ではコンテンツと参考特徴を独立して抽出し、デコーダで融合しますが、これが意味の喪失を招き、不適合なカラー転送と視覚的美しさの低下を引き起こす可能性があります。代わりとして、私たちは両方の画像に連動した条件付けを行う拡散モデルに基づく枠組みである ICTone を提案します。ICTone は生成モデルのセマンティックな先験を利用した、意味を理解した転送を実行するコンテキスト上のトーン転送を行います。また、トーンスタイルスコアーを用いた報酬フィードバック学習も組み込まれ、スタイル忠実性と視覚品質の向上を図っています。実験は TST100K の有効性を証明し、ICTone は定量的指標および人間評価の双方で最先端の性能を示しました。
Original Content
arXiv:2604.16114v1 Announce Type: new
Abstract: Tone style transfer for photo retouching aims to adapt the stylistic tone of the reference image to a given content image. However, the lack of high-quality large-scale triplet datasets with stylized ground truth forces existing methods to rely on self-supervised or proxy objectives, which limits model capability. To mitigate this gap, we design a data construction pipeline to build TST100K, a large-scale dataset of 100,000 content-reference-stylized triplets. At the core of this pipeline, we train a tone style scorer to ensure strict stylistic consistency for each triplet. In addition, existing methods typically extract content and reference features independently and then fuse them in a decoder, which may cause semantic loss and lead to inappropriate color transfer and degraded visual aesthetics. Instead, we propose ICTone, a diffusion-based framework that performs tone transfer in an in-context manner by jointly conditioning on both images, leveraging the semantic priors of generative models for semantic-aware transfer. Reward feedback learning using the tone style scorer is further incorporated to improve stylistic fidelity and visual quality. Experiments demonstrate the effectiveness of TST100K, and ICTone achieves state-of-the-art performance on both quantitative metrics and human evaluations.