Back to list
arxiv_cs_lg 2026年2月10日

判断力を身につける:LLM が評価ルブリックの作成と適用を行う

Learning to Judge: LLMs Designing and Applying Evaluation Rubrics

Translated: 2026/3/15 8:09:10
llmevaluationgenerative-ainatural-language-processingrubric-design

Japanese Translation

arXiv:2602.08672v1 Announce Type: cross 概要:大規模言語モデル(LLM)は、人間が定義した評価基準(rubrics)を適用して自然言語生成システムの出力を評価する評価者としてますます多用されています。ただし、人間の評価基準はしばしば静的であり、モデルが言語の質をどのように内部で表象するかと整合性がありません。本研究では、LLM が自らの評価基準を設計し、適用できるかを調べるために「GER-Eval」(Evaluation Rubrics for Evaluation を生成する)というアプローチを導入しました。LLM による評価基準の文脈的な整合性とスコアリングの信頼性、そして人間による評価基準との整合性を評価しました。LLM は解釈可能なかつタスクに即した評価次元を生成し、モデル内で一貫して適用する能力を有していますが、事実や知識に富んだ環境ではスコアリングの信頼性が低下します。GPT-4o といったクローズドソースモデルは、オープンウェイトモデル(例:Llama)よりも高い合意度とクロスモデル汎用性を達成します。当社の見解では、評価は LLm における学習された言語的能力であり、モデル内部では一貫しているがモデル間では断片的であることを示しています。信頼性と解釈性を向上させるために、人間評価者の言語と LLM 評価者の言語を統合的にモデル化する新たな手法の採用を要請します。

Original Content

arXiv:2602.08672v1 Announce Type: cross Abstract: Large language models (LLMs) are increasingly used as evaluators for natural language generation, applying human-defined rubrics to assess system outputs. However, human rubrics are often static and misaligned with how models internally represent language quality. We introduce GER-Eval (Generating Evaluation Rubrics for Evaluation) to investigate whether LLMs can design and apply their own evaluation rubrics. We evaluate the semantic coherence and scoring reliability of LLM-defined criteria and their alignment with human criteria. LLMs reliably generate interpretable and task-aware evaluation dimensions and apply them consistently within models, but their scoring reliability degrades in factual and knowledge-intensive settings. Closed-source models such as GPT-4o achieve higher agreement and cross-model generalization than open-weight models such as Llama. Our findings position evaluation as a learned linguistic capability of LLMs, consistent within models but fragmented across them, and call for new methods that jointly model human and LLM evaluative language to improve reliability and interpretability.