Back to list
arxiv_cs_lg 2026年4月24日

大規模言語モデルにおける潜在的な信頼性リスク:精度誘発的な出力不一致の体系的同定

Hidden Reliability Risks in Large Language Models: Systematic Identification of Precision-Induced Output Disagreements

Translated: 2026/4/24 20:01:54
llmprecision-lossdiffusion-modeltesting-frameworkmachine-learning

Japanese Translation

arXiv:2604.19790v1 Announce Type: cross 要約: 大規模言語モデル (LLMs) は、効率的性とリソース制約を満たすために、標準浮動小数点形式 (例:bfloat16、float16) やクエンタIZED 整数形式 (例:int16、int8) を含む多様な数値精度設定の下で広く展開されています。しかし、異なる精度の LLM 間の微小な不一致は検出するのが困難であり、既存の評価手法では通常無視されます。本研究では、LLM における精度誘発的な動作的不整合を体系的に検出するための自動的な差分テストフレームワークである「PrecisionDiff」を提唱します。PrecisionDiff は精度感受性の高いテスト入力を実行し、クロス精度比較解析を通じて、従来のテスト戦略では隠れ続ける微細な不一致を発見します。その実践的意義を示すため、私たちは PrecisionDiff をアライメント検証タスクに適用し、精度誘発的不一致は特定精度下ではジャイルブレイク・デパージョン入力として拒絶される一方、別の精度下では有害な応答を生成することがわかったことを実証しました。実験結果は、このような動作的不一致が複数のオープンソースアライメント LLM と精度設定に広く存在し、PrecisionDiff がこれらの問題を検出する上で標準的なテスト手法を大幅に超越していることを示しています。我々の作業は、自動化された精度感受性の高いテスト生成を可能にし、効果的な前展開評価を促進するとともに、トレーニング中の精度強健性を向上させることを支援します。

Original Content

arXiv:2604.19790v1 Announce Type: cross Abstract: Large language models (LLMs) are increasingly deployed under diverse numerical precision configurations, including standard floating-point formats (e.g., bfloat16 and float16) and quantized integer formats (e.g., int16 and int8), to meet efficiency and resource constraints. However, minor inconsistencies between LLMs of different precisions are difficult to detect and are often overlooked by existing evaluation methods. In this paper, we present PrecisionDiff, an automated differential testing framework for systematically detecting precision-induced behavioral disagreements in LLMs. PrecisionDiff generates precision-sensitive test inputs and performs cross-precision comparative analysis to uncover subtle divergences that remain hidden under conventional testing strategies. To demonstrate its practical significance, we instantiate PrecisionDiff on the alignment verification task, where precision-induced disagreements manifest as jailbreak divergence-inputs that are rejected under one precision may produce harmful responses under another. Experimental results show that such behavioral disagreements are widespread across multiple open-source aligned LLMs and precision settings, and that PrecisionDiff significantly outperforms vanilla testing methods in detecting these issues. Our work enables automated precision-sensitive test generation, facilitating effective pre-deployment evaluation and improving precision robustness during training.