Back to list
arxiv_cs_lg 2026年4月24日

Coverage, Not Averages: Semantic Stratification for Trustworthy Retrieval Evaluation

Coverage, Not Averages: Semantic Stratification for Trustworthy Retrieval Evaluation

Translated: 2026/4/24 20:06:20
retrieval-augmented-generationsemantic-stratificationevaluation-frameworkragsevaluation-bias

Japanese Translation

arXiv:2604.20763v1 Announce Type: cross 要約:検索品質は、検索拡張生成(RAG)の精度と強固さにおける主要なボトルネックです。現在の評価は、直感的に構築されたクエリセットに依存しており、このアプローチは潜在的な固有のバイアスを導入します。本研究では、検索評価を統計推定の問題として形式化し、評価セットの構築が指標の信頼性を根本的に制限していることを示しました。さらに、文書構造化に根ざした評価を実現する新しい手法である extbf{semantic stratification} を提案します。この手法は、エンティティベースのクラスタリングによって文書を解釈可能なグローバルな空間に整理し、未整理のクラス層のために系統的にクエリを生成することで機能します。これにより、(1) 異なる検索環境にわたる形式的なセマンティックカバレッジの保証と、(2) 検索失敗モードへの解釈可能な可視性が得られます。 複数のベンチマークおよび検索手法を対象とした実験は、我々のフレームワークを裏付けました。実験結果は、系統的なカバレッジギャップを暴露し、検索パフォーマンスの変異を説明する構造的なシグナルを特定し、集計指標よりも安定で透明性の高い評価をもたらす一方で、より信頼性の高い意思決定を支えることを示しました。

Original Content

arXiv:2604.20763v1 Announce Type: cross Abstract: Retrieval quality is the primary bottleneck for accuracy and robustness in retrieval-augmented generation (RAG). Current evaluation relies on heuristically constructed query sets, which introduce a hidden intrinsic bias. We formalize retrieval evaluation as a statistical estimation problem, showing that metric reliability is fundamentally limited by the evaluation-set construction. We further introduce \emph{semantic stratification}, which grounds evaluation in corpus structure by organizing documents into an interpretable global space of entity-based clusters and systematically generating queries for missing strata. This yields (1) formal semantic coverage guarantees across retrieval regimes and (2) interpretable visibility into retrieval failure modes. Experiments across multiple benchmarks and retrieval methods validate our framework. The results expose systematic coverage gaps, identify structural signals that explain variance in retrieval performance, and show that stratified evaluation yields more stable and transparent assessments while supporting more trustworthy decision-making than aggregate metrics.