Back to list
arxiv_cs_cv 2026年4月24日

MM-JudgeBias: MLLM による裁判官としての構成バイアスの評価のためのベンチマーク

MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

Translated: 2026/4/24 19:53:36
multi-modal-llmevaluation-benchmarkbias-analysismllm-as-a-judgegenerative-ai-safety

Japanese Translation

arXiv:2604.18164v3 Announce Type: replace-cross 要旨:マルチモーダル大規模言語モデル(MLLM)は、自動評価者としての「MLLM-as-a-Judge」というパラダイムでますます広く使われています。しかし、その信頼性とバイアスに対する脆弱性に関する研究は依然として不十分な状態です。本研究では、多くの MLLM 裁判官が重要な視覚的またはテキスト的な手がかりを信賴できる方法で統合できず、証拠が欠如するか不一致である場合の評価が不可信となり、文脈的に不関連な擾乱下で不安定であることを発見しました。この問題を解決するために、MLLM-as-a-Judge システムにおける「構成バイアス(Compositional Bias)」を体系的に定義し、それを評価するためのベンチマークである「MM-JudgeBias」を導入しました。MM-JudgeBias は、クエリ(Query)、画像(Image)、応答(Response)全体に制御された擾乱を導入し、感度に対しては「バイアス偏差(Bias-Deviation: BD)」、安定性に対しては「バイアス適合性(Bias-Conformity: BC)」という 2 つの補完的な指標を使用してモデルの振る舞いを評価します。29 つのソースベンチマークから収集・洗練された 1,800 件を超えるマルチモーダルサンプルを有するデータセットは、多様なタスクとドメインにおいて 9 つのバイアスタイプを微細に診断することを可能にしました。26 つの状態の最上級の MLLM を対象とした実験は、系統的なモーダル性の無視と非対称な評価傾向を明らかにし、より信頼性の高い裁判官の必要性を強調しています。

Original Content

arXiv:2604.18164v3 Announce Type: replace-cross Abstract: Multimodal Large Language Models (MLLMs) have been increasingly used as automatic evaluators-a paradigm known as MLLM-as-a-Judge. However, their reliability and vulnerabilities to biases remain underexplored. We find that many MLLM judges fail to reliably integrate key visual or textual cues, yielding unreliable evaluations when evidence is missing or mismatched, and exhibiting instability under semantically irrelevant perturbations. To address this, we systematically define Compositional Bias in MLLM-as-a-Judge systems and introduce MM-JudgeBias, a benchmark for evaluating it. MM-JudgeBias introduces controlled perturbations across Query, Image, and Response, and evaluates model behavior via two complementary metrics: Bias-Deviation (BD) for sensitivity and Bias-Conformity (BC) for stability. Our dataset of over 1,800 curated and refined multimodal samples, drawn from 29 source benchmarks, enables a fine-grained diagnosis of nine bias types across diverse tasks and domains. Experiments on 26 state-of-the-art MLLMs reveal systematic modality neglect and asymmetric evaluation tendencies, underscoring the need for more reliable judges.