Back to list
解釈可能なトレース、予想外の結果:トレースベースの知識蒸留における断絶の調査
Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation
Translated: 2026/4/20 11:17:23
Japanese Translation
arXiv:2505.13792v2 Announce Type: replace-cross
要約:最近、論理推論に焦点を当てた大規模言語モデル(LLM)の進展により、Chain-of-Thought(CoT)トレース――最終答案が出る前に生成された中間推論ステップ――が導入されました。これらのトレースは DeepSeek R1 のように、推論を導き、小型モデルをトレーニングします。一般的なしかし十分に検討されていない前提として、これらのトレースが両に、論理的に正しく、エンドユーザーにとって解釈可能であると見なされています。間接推論ステップが精度向上をもたらすと信じられているにもかかわらず、それらが実際に有効で理解可能かどうかを疑いました。トレースのセマンティスの効果だけを分離するために、We 質問回答(QA)における実験を設計し、ルールベースの問題分解を用いて、各問題が検証可能に正しく、または誤ったトレースともペアリングされた、ファインチューニングデータセットを作成しました。常に正しい最終答案を提供しました。トレースの正しさは、すべての推論サブステップの精度を確認することで評価されました。理解可能性を評価するために、私たちは追加の 3 つのトレースタイプ(R1 トレース、R1 トレースのサマリー、ポストホック説明)で LLM をファインチューニングし、100 名の参加者を含むヒューマンスタディを実施し、各タイプを L ERT スケールで評価しました。私たちは以下の発見に達しました:(1) トレースの正しさは、正しい最終答案を確実に予測しません――正しいトレースはテストケースのわずか 28% で正しい解決策をもたらしましたし、誤ったトレースは精度を一貫して低下させることもありませんでした。(2) 詳細な R1 トレースでのファインチューニングが最も良いモデルパフォーマンスをもたらしましたが、ユーザーはそれらを最も解釈不可能だと評価しました(5 ポイントスケールでの解釈可能性 3.39、認知負荷 4.59)。一方、より解釈可能で分解されたトレースは、比較可能な精度を獲得しませんでした。これらの発見は、質問の前提を疑い、研究者と専門家は、モデルの監督目標とエンドユーザー向けトレース設計を解結合すべきだと示唆しています。
Original Content
arXiv:2505.13792v2 Announce Type: replace-cross
Abstract: Recent advances in reasoning-focused Large Language Models (LLMs) have introduced Chain-of-Thought (CoT) traces - intermediate reasoning steps generated before a final answer. These traces, as in DeepSeek R1, guide inference and train smaller models. A common but under-examined assumption is that these traces are both semantically correct and interpretable to end-users. While intermediate reasoning steps are believed to improve accuracy, we question whether they are actually valid and understandable. To isolate the effect of trace semantics, we design experiments in Question Answering (QA) using rule-based problem decomposition, creating fine-tuning datasets where each problem is paired with either verifiably correct or incorrect traces, while always providing the correct final answer. Trace correctness is evaluated by checking the accuracy of every reasoning sub-step. To assess interpretability, we fine-tune LLMs on three additional trace types: R1 traces, R1 trace summaries, and post-hoc explanations, and conduct a human study with 100 participants rating each type on a Likert scale. We find: (1) Trace correctness does not reliably predict correct final answers - correct traces led to correct solutions in only 28% of test cases, while incorrect traces did not consistently degrade accuracy. (2) Fine-tuning on verbose R1 traces yielded the best model performance, but users rated them least interpretable (3.39 interpretability, 4.59 cognitive load on a 5-point scale), whereas more interpretable decomposed traces did not achieve comparable accuracy. Together, these findings challenge the assumption in question suggesting that researchers and practitioners should decouple model supervision objectives from end-user-facing trace design.