Back to list
StyleID: stylization に依存しない顔の同一性認識のための感知意識データセットと指標
StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition
Translated: 2026/4/24 19:48:42
Japanese Translation
arXiv:2604.21689v1 Announce Type: cross
Abstract: クリエイティブな顔のスタイル化は、漫画、スケッチ、絵画など多様な視覚的文法において肖像を描画しつつ、認識可能な同一性を保持することを目的としています。しかし、通常の自然写実の写真においてトレーニング・カリブレーションがなされている既存の同一性エンコーダーは、スタイル化の下で劇的な脆性を示します。彼らはテクスチャやカラーパレットの変更を同一性の漂流と誤解したり、幾何学的な誇張を検出できずに失敗したりします。これにより、多様なスタイルと強度を問わず同一性の一貫性を評価・監督するためのスタイルに依存しないフレームワークの欠如が明らかとなりました。このギャップに対処するため、StyleID とは、スタイル化における顔の同一性に対して人間の感知を考慮したデータセットと評価フレームワークの提示です。StyleID は 2 つのデータセットを構成しています:(i) StyleBench-H:ディフューजनとフローマッチングに基づくスタイル化において複数のスタイル強度で人間の「同じか違うか」判定を捕捉するベンチマーク、および (ii) StyleBench-S:制御された 2 選択強制選択(2AFC)実験から得た心理計学的認識強度曲線に基づく監督セットです。StyleBench-S を利用し、既存のセマンティックエンコーダーを微調整することで、スタイルと強度にわたって人間の感知と一致する類似度の順序を合わせるようにしました。実験は、我々のカリブレーションされたモデルが人間の判断と著しく高い相関を持ち、ドメイン外・芸術家描きの肖像画に対して強化された頑健性を示唆しています。我々の全てのデータセット、コード、および事前学習済みモデルは、https://kwanyun.github.io/StyleID_page/ で公開されています。
Original Content
arXiv:2604.21689v1 Announce Type: cross
Abstract: Creative face stylization aims to render portraits in diverse visual idioms such as cartoons, sketches, and paintings while retaining recognizable identity. However, current identity encoders, which are typically trained and calibrated on natural photographs, exhibit severe brittleness under stylization. They often mistake changes in texture or color palette for identity drift or fail to detect geometric exaggerations. This reveals the lack of a style-agnostic framework to evaluate and supervise identity consistency across varying styles and strengths. To address this gap, we introduce StyleID, a human perception-aware dataset and evaluation framework for facial identity under stylization. StyleID comprises two datasets: (i) StyleBench-H, a benchmark that captures human same-different verification judgments across diffusion- and flow-matching-based stylization at multiple style strengths, and (ii) StyleBench-S, a supervision set derived from psychometric recognition-strength curves obtained through controlled two-alternative forced-choice (2AFC) experiments. Leveraging StyleBench-S, we fine-tune existing semantic encoders to align their similarity orderings with human perception across styles and strengths. Experiments demonstrate that our calibrated models yield significantly higher correlation with human judgments and enhanced robustness for out-of-domain, artist drawn portraits. All of our datasets, code, and pretrained models are publicly available at https://kwanyun.github.io/StyleID_page/