Back to list
arxiv_cs_cv 2026年2月10日

Vectra:EコマースのIn-Image Machine Translation(IIMT)における視覚品質評価のための新しい指標、データセット、モデル

Vectra: A New Metric, Dataset, and Model for Visual Quality Assessment in E-Commerce In-Image Machine Translation

Translated: 2026/2/11 13:34:29

Japanese Translation

arXiv:2602.07014v1 公開タイプ: new 要約: In-Image Machine Translation(IIMT)は越境Eコマースの商品出品を支えている。既存の研究は主に機械翻訳の評価に焦点を当てているが、視覚的レンダリングの品質はユーザーのエンゲージメントにとって重要である。コンテクストに富む商品画像やマルチモーダルな欠陥に直面した場合、従来の参照ベースの手法(例: SSIM, FID)は説明性に欠け、またmodel-as-judgeアプローチはドメインに根ざした細粒度の報酬信号を欠く。 このギャップを埋めるため、本研究では Vectra を提案する。私たちの知る限り、これはeコマースIIMT向けの最初の参照不要(reference-free)かつMLLM駆動の視覚品質評価フレームワークである。Vectraは以下の3つのコンポーネントから成る。 1) Vectra Score:視覚品質を14の解釈可能な次元に分解する多次元品質指標システム。注釈のあいまいさを減らすために空間情報に配慮したDefect Area Ratio(DAR)による定量化を備える。 2) Vectra Dataset:多様性を考慮したサンプリングにより1.1M(110万)の実世界の商品画像から構築されたデータセットで、システム評価用の2Kベンチマーク、インストラクションチューニング用の30Kの推論ベース注釈、整合性と評価のための3.5Kの専門家ラベル付き嗜好データを含む。 3) Vectra Model:40億パラメータのMLLMで、定量スコアと診断的推論の両方を生成する。 実験により、Vectraが人間のランク付けとの相関において最先端の性能を達成すること、ならびに我々のモデルがスコアリング性能においてGPT-5やGemini-3を含む主要なMLLMを上回ることを示す。データセットとモデルは採択時に公開する予定である。

Original Content

arXiv:2602.07014v1 Announce Type: new Abstract: In-Image Machine Translation (IIMT) powers cross-border e-commerce product listings; existing research focuses on machine translation evaluation, while visual rendering quality is critical for user engagement. When facing context-dense product imagery and multimodal defects, current reference-based methods (e.g., SSIM, FID) lack explainability, while model-as-judge approaches lack domain-grounded, fine-grained reward signals. To bridge this gap, we introduce Vectra, to the best of our knowledge, the first reference-free, MLLM-driven visual quality assessment framework for e-commerce IIMT. Vectra comprises three components: (1) Vectra Score, a multidimensional quality metric system that decomposes visual quality into 14 interpretable dimensions, with spatially-aware Defect Area Ratio (DAR) quantification to reduce annotation ambiguity; (2) Vectra Dataset, constructed from 1.1M real-world product images via diversity-aware sampling, comprising a 2K benchmark for system evaluation, 30K reasoning-based annotations for instruction tuning, and 3.5K expert-labeled preferences for alignment and evaluation; and (3) Vectra Model, a 4B-parameter MLLM that generates both quantitative scores and diagnostic reasoning. Experiments demonstrate that Vectra achieves state-of-the-art correlation with human rankings, and our model outperforms leading MLLMs, including GPT-5 and Gemini-3, in scoring performance. The dataset and model will be released upon acceptance.