Back to list
DINOv3 にて特化型検出器が敗北: 画像検出における単純な基礎モデル基準モデル
DINOv3 Beats Specialized Detectors: A Simple Foundation Model Baseline for Image Forensics
Translated: 2026/4/20 10:45:03
Japanese Translation
arXiv:2604.16083v1 発表タイプ:新
Abstract: ディープ生成モデルの急速な発展に伴い、現実的な偽画像の入手が容易になりましたが、既存のローカリゼーション手法は複雑な設計を必要とし、まだどの操作タイプや撮像条件下の一般化に苦労しています。DINOv3 に対し LoRA 適応と軽量畳み込みデコーダーを組み合わせ、シンプルかつ強力な基準モデルを示します。CAT-Net プロトコルのもと、我々の最良モデルは 4 つの標準ベンチマークにおいて、9.1 百万の学習可能パラメータのみを保持する凍結された ViT-L ベースバックボーンの上に、前州の芸術を 17.0 ポイントも平均ピクセルレベルの F1 に改善しました。そして、我々の最小のバリエーションでも過去の全ての特化型手法を上回ります。LoRA は全てのベースバックボーン規模でフルファインタューニングを常に凌駕します。データ不足の MVSS-Net プロトコルにおいて、LoRA は平均 F1 0.774 を達成し、最も強力な前法は 0.530 です。一方、フルファインタューニングは高度に不安定になり、これは事前トレーニングされた表現がオーバーライトされるより検出情報に優れていることを示唆しています。この基準モデルは高スノイズ、JPEG 再圧縮、および高スノイズブヤへの強い耐性も示します。本作業が研究コミュニティの信頼できる基準および将来の画像検出アプリケーションの実用的な出発点となることが願っています。コードは https://github.com/Irennnne/DINOv3-IML で入手可能です。
Original Content
arXiv:2604.16083v1 Announce Type: new
Abstract: With the rapid advancement of deep generative models, realistic fake images have become increasingly accessible, yet existing localization methods rely on complex designs and still struggle to generalize across manipulation types and imaging conditions. We present a simple but strong baseline based on DINOv3 with LoRA adaptation and a lightweight convolutional decoder. Under the CAT-Net protocol, our best model improves average pixel-level F1 by 17.0 points over the previous state of the art on four standard benchmarks using only 9.1\,M trainable parameters on top of a frozen ViT-L backbone, and even our smallest variant surpasses all prior specialized methods. LoRA consistently outperforms full fine-tuning across all backbone scales. Under the data-scarce MVSS-Net protocol, LoRA reaches an average F1 of 0.774 versus 0.530 for the strongest prior method, while full fine-tuning becomes highly unstable, suggesting that pre-trained representations encode forensic information that is better preserved than overwritten. The baseline also exhibits strong robustness to Gaussian noise, JPEG re-compression, and Gaussian blur. We hope this work can serve as a reliable baseline for the research community and a practical starting point for future image-forensic applications. Code is available at https://github.com/Irennnne/DINOv3-IML.