Back to list
arxiv_cs_lg 2026年2月10日

アローの境を超へて:多基準ベンチマークにおける不可能性から多様性へ

Beyond Arrow: From Impossibility to Possibilities in Multi-Criteria Benchmarking

Translated: 2026/3/15 14:08:58
social-choice-theorybenchmarkingarrow-implication-theoremmachine-learning-evaluationmulti-criteria-decision

Japanese Translation

arXiv:2602.07593v1 Announcement Type: new 摘要:現代のベンチマーク(HELM, MMLU など)は、正確性、強健性、効率などの複数の指標を含んでいます。これらの指標を単一の順位へ変換しようと attempted すると、自然な集約手法が非整合的またはモデルのセットの変更に対して不安定になることがあります。我々はこれを集約の問題として形式化し、各指標がデータセットごとにモデルに対して優越順位を導き出し、ベンチマーク演算子がこれらの投票を指標間で集約することを定義した。従来の研究はアローの不可能定理に焦点を当ててきたが、我々は不可能性がしばしば病例(pathological examples)によって由来することを示唆し、それらの消失を許容する十分な条件を特定し、意味のある多基準ベンチマーク化が可能であることを示す。特に、我々は3つの順位組み合わせの制約を取り扱い、単峰性、群分割性、距離制限付きの好望順位において、ベンチマーク演算子が関与するモデルの良好な秩序を構築することを証明した。実証的に、我々は HELM や MMLU などの複数の現代ベンチマークスイートを検証し、どのベンチマーク問題でどの構造的条件が満たされているかを確認した。

Original Content

arXiv:2602.07593v1 Announce Type: new Abstract: Modern benchmarks such as HELM MMLU account for multiple metrics like accuracy, robustness and efficiency. When trying to turn these metrics into a single ranking, natural aggregation procedures can become incoherent or unstable to changes in the model set. We formalize this aggregation as a social choice problem where each metric induces a preference ranking over models on each dataset, and a benchmark operator aggregates these votes across metrics. While prior work has focused on Arrow's impossibility result, we argue that the impossibility often originates from pathological examples and identify sufficient conditions under which these disappear, and meaningful multi-criteria benchmarking becomes possible. In particular, we deal with three restrictions on the combinations of rankings and prove that on single-peaked, group-separable and distance-restricted preferences, the benchmark operator allows for the construction of well-behaved rankings of the involved models. Empirically, we investigate several modern benchmark suites like HELM MMLU and verify which structural conditions are fulfilled on which benchmark problems.