Back to list
SparseEval: 大規模言語モデルに対するスパース最適化による効率的な評価
SparseEval: Efficient Evaluation of Large Language Models by Sparse Optimization
Translated: 2026/3/15 7:04:25
Japanese Translation
arXiv:2602.07909v1 発表形式:クロス
摘要:大規模言語モデル(LLM)のスケールアップが進むにつれ、各種ダウンストリームタスクにおける性能は大幅に改善されています。しかし、大数のベンチマークサンプルへの推論を実行することが高コストであるため、その能力の評価はますます高価になっています。本稿では、モデル - アイテム性能行列の疎性を示し、代表 アイテムをアンカー(錨)として選択可能であり、効率的なベンチマーク評価をスパース最適化問題として形式化できることを示します。これらの洞察に基づき、我々は第一次に勾配降下法を用いてアンカー重みを最適化し、アンカー選択に対して逐次修飾戦略を採用する手法「SparseEval」を提案します。我々は MLP の表現能力を活用し、タスクに応じた修飾を行い、各アイテムの価値を評価するために「アンカー重要性スコア」と「候補者重要性スコア」を提案します。大規模な実験により、私たちの手法は多種多様なベンチマークで低い推定誤差と高い Kendalls~$\tau$ を示し、実世界シナリオにおける優れた頑健性と実用性を示しています。コードは {https://github.com/taolinzhang/SparseEval} に利用可能です。
Original Content
arXiv:2602.07909v1 Announce Type: cross
Abstract: As large language models (LLMs) continue to scale up, their performance on various downstream tasks has significantly improved. However, evaluating their capabilities has become increasingly expensive, as performing inference on a large number of benchmark samples incurs high computational costs. In this paper, we revisit the model-item performance matrix and show that it exhibits sparsity, that representative items can be selected as anchors, and that the task of efficient benchmarking can be formulated as a sparse optimization problem. Based on these insights, we propose SparseEval, a method that, for the first time, adopts gradient descent to optimize anchor weights and employs an iterative refinement strategy for anchor selection. We utilize the representation capacity of MLP to handle sparse optimization and propose the Anchor Importance Score and Candidate Importance Score to evaluate the value of each item for task-aware refinement. Extensive experiments demonstrate the low estimation error and high Kendall's~$\tau$ of our method across a variety of benchmarks, showcasing its superior robustness and practicality in real-world scenarios. Code is available at {https://github.com/taolinzhang/SparseEval}.