Back to list
arxiv_cs_ai 2026年4月24日

倣見か掌握か?大型言語モデルにおける推論蒸留における認知視点:『漢端学術』か『窮處語蘭』か

H\'an D\=an Xu\'e B\`u (Mimicry) or Q\=ing Ch\=u Y\'u L\'an (Mastery)? A Cognitive Perspective on Reasoning Distillation in Large Language Models

Translated: 2026/4/24 20:33:55
large-language-modelsreasoning-distillationcognitive-sciencereinforcement-learningsupervised-fine-tuning

Japanese Translation

arXiv:2601.05019v2 Announce Type: replace-cross 摘要:最近、強化学習によって訓練された大型推論モデルは、人間の認知コストと「自然」に合致しているように見える。しかし、我々は、推論蒸留の prevailing パラダイム——すなわち、教師の軌跡を SFT(监督微调)を通じて倣わせることで学生モデルを訓練する——がこの認知構造を伝達しないことを示した。「漢端学術(Han Dan Xue Bu)」仮説、すなわち表層的倣見を 14 のモデルにテストした結果、蒸留が「機能的合致崩壊」を誘発することがわかった。教師モデルが人間の難易度スケールを反映する(平均 r=0.64)のに対し、蒸留された学生モデルはこれを著しく劣化させた(平均 r=0.34)が、多くの場合、自らの蒸留前のベースラインよりも成績を劣らせ(「ネガティブ転移」)た。我々の分析は、SFT が学生に「荷車cult」の効果を招くことを示唆しており、学生が思考の言語的形式(冗長さ)を儀礼的に複製するだけで、教師の動的リソース割り当てポリシーを内面化しないことが原因である。つまり、推論蒸留は計算コストと認知要求を分離させ、人間のような認知が受動的な模倣ではなく、能動的な強化における発現的な性質であることを明らかにした。

Original Content

arXiv:2601.05019v2 Announce Type: replace-cross Abstract: Recent Large Reasoning Models trained via reinforcement learning exhibit a "natural" alignment with human cognitive costs. However, we show that the prevailing paradigm of reasoning distillation -- training student models to mimic these traces via Supervised Fine-Tuning (SFT) -- fails to transmit this cognitive structure. Testing the "H\'an D\=an Xu\'e B\`u" (Superficial Mimicry) hypothesis across 14 models, we find that distillation induces a "Functional Alignment Collapse": while teacher models mirror human difficulty scaling ($\bar{r}=0.64$), distilled students significantly degrade this alignment ($\bar{r}=0.34$), often underperforming their own pre-distillation baselines ("Negative Transfer"). Our analysis suggests that SFT induces a "Cargo Cult" effect, where students ritualistically replicate the linguistic form of reasoning (verbosity) without internalizing the teacher's dynamic resource allocation policy. Consequently, reasoning distillation decouples computational cost from cognitive demand, revealing that human-like cognition is an emergent property of active reinforcement, not passive imitation.