Back to list
RefereeBench: Video MLLMs が複数の競技の審判官に耐えられるのだろうか
RefereeBench: Are Video MLLMs Ready to be Multi-Sport Referees
Translated: 2026/4/20 10:42:18
Japanese Translation
arXiv:2604.15736v1 Announce Type: new
要約:多模态大言語モデル (MLLMs) は汎用的な動画理解において秀でているものの、専門的な、ルールに根ざした意思決定をサポートする能力は、十分に探索されていない。この論文では、MLLMs を自動的にスポーツ審判官として評価するための初の大规模ベンチマークである RefereeBench を紹介する。RefereeBench は 11 のスポーツにわたる 925 本の選定された動画と 6,475 対の QA ペアを対象としており、5 つの核心的審判能力を評価する:ファウル存在の判断、ファウルおよびペナルティの分類、ファウルおよびペナルティの推論、エンティティ認識、および時間的アンカー。このベンチマークは完全に人間の注釈付けされており、本物の審判ロジックおよび多模态証拠に基づいた高品質な注釈を確保している。最前線の MLLMs の広範な評価は、最も強力なモデル(Doubao-Seed-1.8 および Gemini-3-Pro など)が約 60% の精度に過ぎ、最も強力なオープンソースモデルである Qwen3-VL は 47% に留まることが示されており、現在のモデルが信頼できるスポーツ審判官からの程遠いことを示している。さらに分析では、モデルはしばしば事象および関連するエンティティを識別できるとしても、ルール適用および時間的アンカーに苦戦し、通常のクリップに対してファウルを頻繁に叫ぶことが分かる。私たちのベンチマークは、将来の MLLMs がドメイン知識および多模态理解をより良く統合する必要性を浮き彫りにし、信頼できる AI 支援の審判および広範な多模态意思決定の進展を促す。
Original Content
arXiv:2604.15736v1 Announce Type: new
Abstract: While Multimodal Large Language Models (MLLMs) excel at generic video understanding, their ability to support specialized, rule-grounded decision-making remains insufficiently explored. In this paper, we introduce RefereeBench, the first large-scale benchmark for evaluating MLLMs as automatic sports referees. Spanning 11 sports with 925 curated videos and 6,475 QA pairs, RefereeBench evaluates five core officiating abilities: foul existence, foul and penalty classification, foul and penalty reasoning, entity perception, and temporal grounding. The benchmark is fully human-annotated to ensure high-quality annotations grounded in authentic officiating logic and multimodal evidence. Extensive evaluations of state-of-the-art MLLMs show that even the strongest models, such as Doubao-Seed-1.8 and Gemini-3-Pro, achieve only around 60% accuracy, while the strongest open-source model, Qwen3-VL, reaches only 47%. These results indicate that current models remain far from being reliable sports referees. Further analysis shows that while models can often identify incidents and involved entities, they struggle with rule application and temporal grounding, and frequently over-call fouls on normal clips. Our benchmark highlights the need for future MLLMs that better integrate domain knowledge and multimodal understanding, advancing trustworthy AI-assisted officiating and broader multimodal decision-making.