Back to list
arxiv_cs_ai 2026年2月10日

理由のLLMが介入を受けるたびにどれくらい堅固か?

Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought?

Translated: 2026/3/7 8:51:37

Japanese Translation

RLLMs(論理的LLM)は回答を与える前にステップバイステップでの思考の列であるコール・オブ・シンセシアを生成します。これにより複雑なタスクへのパフォーマンスが改善され、思考の透明性も向上します。しかしなぜならこれらの推理のチェーンがどのように抵抗できるかが分かりません。この問いに対する解決策となる評価フレームワークを開発し、モデル自身のコール・オブ・シンセシアでの固定したタイムステップにおいて間接的な変更を導入します。そして異なる攻撃と非攻撃的 interventions を設計し、Math、科学、論理に対する多くのオープンな重みを持つ RLMs に適用しました。結果として、RLLMsは一般的によく抵抗できますすべての擾乱から安定しなければなります。またモデルサイズが大きくなるにつれてこの強度が改善され、これらの介入が早く行われるにつれてこれに対して抵抗性が落ちます。しかし、これがスタイル依存ではなくのです: paraphrasage は疑問を似非的に減らし、パフォーマンスを下げますが、他の interventions が疑問を引き立ててそして支援の復元に導きます。再建もコストがあります:中立的や攻撃的なノイズはチェーンの長さを約200%も増加させるとしょっちゅう短縮しますが精度には害があります。これらの発見により、RLLM による理由の固有性を維持するための証拠、疑問を中央的な回復メカニズムとして識別、そして強度と効率の貿易オファの問題が未来の訓練方法に何につながっているかという理解がはっきりしてきました。

Original Content

arXiv:2602.07470v1 Announce Type: new Abstract: Reasoning LLMs (RLLMs) generate step-by-step chains of thought (CoTs) before giving an answer, which improves performance on complex tasks and makes reasoning more transparent. But how robust are these reasoning traces to disruptions that occur within them? To address this question, we introduce a controlled evaluation framework that perturbs a model's own CoT at fixed timesteps. We design seven interventions (benign, neutral, and adversarial) and apply them to multiple open-weight RLLMs across Math, Science, and Logic tasks. Our results show that RLLMs are generally robust, reliably recovering from diverse perturbations, with robustness improving with model size and degrading when interventions occur early. However, robustness is not style-invariant: paraphrasing suppresses doubt-like expressions and reduces performance, while other interventions trigger doubt and support recovery. Recovery also carries a cost: neutral and adversarial noise can inflate CoT length by more than 200%, whereas paraphrasing shortens traces but harms accuracy. These findings provide new evidence on how RLLMs maintain reasoning integrity, identify doubt as a central recovery mechanism, and highlight trade-offs between robustness and efficiency that future training methods should address.