Back to list
ファシアルイメージからの変則的年齢推定:ビジョン言語モデルと従来のアーキテクチャの総合的なベンチマーク比較
Out of the box age estimation through facial imagery: A Comprehensive Benchmark of Vision-Language Models vs. out-of-the-box Traditional Architectures
Translated: 2026/3/15 19:01:58
Japanese Translation
arXiv:2602.07815v1 Announce Type: new
Abstract: 年齢推定はコンテンツモデレーション、年齢確認、ディープフェイク検出において不可欠であるが、現代的なビジョン言語モデル(VLM)と専門的な年齢推定アーキテクチャを系統的に比較した先例的なベンチマークは存在しない。我々は、公開されたプリトレーニング済み重みを持つ 22 の専門的アーキテクチャと 12 の汎用的 VLM の合計 34 モデルを、UTKFace、IMDB-WIKI、MORPH、AFAD、CACD、FG-NET、APPA-REAL、AgeDB の 8 つの標準データセットを含む、1 モデルあたり 1,100 枚のテスト画像を総数として、最初の大規模なクロスパラダイムベンチマークを提示する。我々の主要な知見は驚くべきものであり、ゼロショット VLM はほとんどの専門的モデルを大きく上回る平均 MAE 5.65 年を達成し、非 LLM モデルの 9.88 年と比較している。最高の VLM(Gemini-3 Flash PreVIEW、MAE〜4.32)は、最高の非 LLM モデル(MiVOLO、MAE〜5.10)を上回り、15% の性能向上を実現している。MiVOLO は、ビジョン変換器を通じて顔特徴と身体特徴を独自に組み合わせるため、VLM と対抗できるのみである。さらに、18 歳の閾値における年齢確認を分析し、非 LLM モデルが若年者に 60〜100% の誤った成人率を示す一方で VLM は 13〜25% に達することを確認するとともに、8〜9 クラスといった粗い年齢階層分類は 13 年以上で MAE を一貫して劣化させると示した。14 の年齢グループにわたる層別分析により、すべてのモデルが極端な年齢(5 歳未満と 65 歳以上)で最も苦労していることが明らかになった。これらの知見は、年齢推定のためにタスク専用アーキテクチャが必要という前提に疑問を投げかけ、分野が VLM の機能を効率的な専門モデルに蒸留する方向へ転換すべきだと提唱している。
Original Content
arXiv:2602.07815v1 Announce Type: new
Abstract: Facial age estimation is critical for content moderation, age verification, and deepfake detection, yet no prior benchmark has systematically compared modern vision-language models (VLMs) against specialized age estimation architectures. We present the first large-scale cross-paradigm benchmark, evaluating \textbf{34 models} -- 22 specialized architectures with publicly available pretrained weights and 12 general-purpose VLMs -- across \textbf{8 standard datasets} (UTKFace, IMDB-WIKI, MORPH, AFAD, CACD, FG-NET, APPA-REAL, AgeDB) totaling 1{,}100 test images per model. Our key finding is striking: \emph{zero-shot VLMs significantly outperform most specialized models}, achieving an average MAE of 5.65 years compared to 9.88 for non-LLM models. The best VLM (Gemini~3 Flash Preview, MAE~4.32) outperforms the best non-LLM model (MiVOLO, MAE~5.10) by 15\%. Only MiVOLO, which uniquely combines face and body features via Vision Transformers, competes with VLMs. We further analyze age verification at the 18-year threshold, revealing that non-LLM models exhibit 60--100\% false adult rates on minors while VLMs achieve 13--25\%, and demonstrate that coarse age binning (8--9 classes) consistently degrades MAE beyond 13 years. Our stratified analysis across 14 age groups reveals that all models struggle most at extreme ages ($<$5 and 65+). These findings challenge the assumption that task-specific architectures are necessary for age estimation and suggest that the field should redirect toward distilling VLM capabilities into efficient specialized models.