Back to list
Differentiable Conformal Training for LLM Reasoning Factuality
Differentiable Conformal Training for LLM Reasoning Factuality
Translated: 2026/4/24 19:56:12
Japanese Translation
arXiv:2604.20098v1 発表 タイプ:新しい
要約:大規模言語モデル(LLM)は頻繁に幻覚(hallucination)を起こし、これが重要な応用における信頼性を制限しています。Conformal Prediction(CP)は、これは保持されたデータ上で誤り率を校正することで、統計的に妥当な確信保証を提供することで対応します。最近の取り組みは CP を LLM の事実性と拡張し、リスクのある主張をフィルタリングすることで、幻覚率がユーザーに指定されたレベル(例:10%)以下を維持することを保証しています。以前の方法は主張を個別に扱うところに対し、Coherent Factuality は出力を依存関係グラフとして表現することで multi-step reasoning に拡張し、主張とそれらの論理的祖先を共同で検証します。重要な制限点は、Coherent Factuality が微分不能であること、つまり高信頼性レベルで約 60% の真の主張を除く手動で設計されたスコアラーが必要であることです。本研究では、より良いスコアラーを学習可能にし、元のアルゴリズムの保証を証明立てに復元する完全微分可能な緩和である Differentiable Coherent Factuality(DCF)を導入しました。2 つのベンチマークレASONING データセットにおける実験は、DHF が信頼性保証を維持したまま主張保有率で最大 141% の改善をもたらすことを示し、信頼性の高い conformal LLM システムに向けた重要な進歩を示しました。
Original Content
arXiv:2604.20098v1 Announce Type: new
Abstract: Large Language Models (LLMs) frequently hallucinate, limiting their reliability in critical applications. Conformal Prediction (CP) addresses this by calibrating error rates on held-out data to provide statistically valid confidence guarantees. Recent work extends CP to LLM factuality to filter out risky claims, ensuring that hallucination rates remain below a user-specified level (e.g., 10%). While prior methods treat claims independently, Coherent Factuality extends to multi-step reasoning by representing outputs as dependency graphs and jointly validating claims with their logical ancestors. A key limitation is that Coherent Factuality is not differentiable, requiring hand-crafted scorers that at high reliability levels remove nearly 60% of true claims. We introduce Differentiable Coherent Factuality (DCF), a fully differentiable relaxation that enables learning improved scorers while provably recovering the original algorithm's guarantees. Experiments on two benchmark reasoning datasets demonstrate DCF achieves up to 141% improvement in claim retention while maintaining reliability guarantees, representing a significant step towards reliable conformal LLM systems.