Back to list
E-VAds: MLLMs 向けの EC ショップ動画理解ベンチマーク
E-VAds: An E-commerce Short Videos Understanding Benchmark for MLLMs
Translated: 2026/3/16 14:04:41
Japanese Translation
arXiv:2602.08355v1 Announce Type: new
要旨: EC ショップ動画は、目的志向フォーマットと高密なマルチモーダル信号を特徴とするオンライン動画業界において高い収益性を示すセグメントである。既存のモデルは、一般目的のタスクに焦点を当てたベンチマークが商業的意図の推論を無視しているため、こうした動画においてしばしば困難さを味わう。本稿では、まずこのドメインの複雑性を定量化するための extbf{マルチモーダル情報密度評価フレームワーク} を提案する。我々の評価は、EC コンテンツが主要なデータセットと比較して視覚的、音響的、テキスト的なモードにわたって著しく高密度であることを示しており、動画理解という分野においてより挑戦的な前線(フロントニア)を確立する。このギャップに対処するために、 extbf{EC ビデオ広告ベンチマーク (E-VAds)} を導入した。これは、EC ショップ動画理解に特化して設計された最初のベンチマークである。3,961 本の高品質な動画(タオバオからの)を収集し、幅広い製品カテゴリをカバーすると同時に、マルチエージェントシステムを使用して 19,785 組のオープンエンド Q&A 対を生成した。これらの質問は、 extbf{知覚と推論の理解と推論} という 2 つの主要な次元に整理され、これには 5 つの異なるタスクが含まれている。最終的に、 extbf{E-VAds-R1} を開発した。これは、 extbf{MG-GRPO} というマルチグリーンドesign の報酬設計を特徴とする RL に基づく推論モデルである。この戦略は早期の探索にスムーズなガイダンスを提供すると同時に、専門レベルの精度に対して非線形的なインセンティブを創出する。実験結果は、E-VAds-R1 が数Hundredsのトレーニングサンプルだけで、商業的意図の推論において 109.2% のパフォーマンス向上を実現することを示している。
Original Content
arXiv:2602.08355v1 Announce Type: new
Abstract: E-commerce short videos represent a high-revenue segment of the online video industry characterized by a goal-driven format and dense multi-modal signals. Current models often struggle with these videos because existing benchmarks focus primarily on general-purpose tasks and neglect the reasoning of commercial intent. In this work, we first propose a \textbf{multi-modal information density assessment framework} to quantify the complexity of this domain. Our evaluation reveals that e-commerce content exhibits substantially higher density across visual, audio, and textual modalities compared to mainstream datasets, establishing a more challenging frontier for video understanding. To address this gap, we introduce \textbf{E-commerce Video Ads Benchmark (E-VAds)}, which is the first benchmark specifically designed for e-commerce short video understanding. We curated 3,961 high-quality videos from Taobao covering a wide range of product categories and used a multi-agent system to generate 19,785 open-ended Q&A pairs. These questions are organized into two primary dimensions, namely Perception and Cognition and Reasoning, which consist of five distinct tasks. Finally, we develop \textbf{E-VAds-R1}, an RL-based reasoning model featuring a multi-grained reward design called \textbf{MG-GRPO}. This strategy provides smooth guidance for early exploration while creating a non-linear incentive for expert-level precision. Experimental results demonstrate that E-VAds-R1 achieves a 109.2% performance gain in commercial intent reasoning with only a few hundred training samples.