Back to list
Hybrid と Non-Hybrid LLM における論理推理の素素
Reasoning Primitives in Hybrid and Non-Hybrid LLMs
Translated: 2026/4/24 20:26:44
Japanese Translation
arXiv:2604.21454v1 発表タイプ:クロス
要旨:大型言語モデル(LLM)における論理推理は通常、単一的能力として扱われていますが、その観察される効果はより基本的な操作に起因している可能性があります。われわれは、回想(recall)とステート・トラック(state-tracking)という 2 つのそのような素(primitive)を通じて論理推理を研究し、アテンションベースのリtrieval とリカレントなステート更新を組み合わせたハイブリッドアーキテクチャが、アテンションのみがモデルよりも、両方の要素を共同で必要とするタスクに対してより適しているかを問います。指示チューニングおよび推理拡張の両方のバリアントを使用した OLMo3 トラン스포ーマーとハイブリッドモデルをマッチングさせたことで、ステート・トラックおよび回想素、ステートベースの回想を含む、状態トラックと回想のミックスを伴う制御されたタスクのセットにおいて、これらのモデルの評価を行いました。タスク全体において、推理の拡張が最大の全体の改善をもたらすこと、モデルが依然として効果的である難易度の範囲が大幅に拡大されることが観察されました。また、いくつかのタスクにおいては、ハイブリッド推理モデルが連続的依存関係が増加するにつれて依然として大幅に頑健であることがわかりました。対照的に、トラン스포ーマー推理モデルは、ある閾値を超えてタスクの難易度が向上するにつれて、パフォーマンスが急激に低下します。これらの結果は、推理トークンとアーキテクチャ的なインダクティブバイアスが計算プロセスの異なるレベルで寄与していることを示唆しており、明示的な推理はモデルの有効な動作範囲を広げる可能性がある一方で、その恩恵は基盤となるアーキテクチャが持続的なステート伝播をどの程度サポートできるかに依存します。我が研究がモデルおよびタスクのセットが限られているという小規模なケーススタディである点を考慮し、われわれはこれらの発見を示唆的なものとして提示し、モデルファミリー、スケール、タスクバリエーションにおけるより広範な検証を今後の研究に残します。
Original Content
arXiv:2604.21454v1 Announce Type: cross
Abstract: Reasoning in large language models is often treated as a monolithic capability, but its observed gains may arise from more basic operations. We study reasoning through two such primitives, recall and state-tracking, and ask whether hybrid architectures that combine attention-based retrieval with recurrent state updates are better suited than attention-only models for tasks that jointly require both. Using matched Olmo3 transformer and hybrid models in instruction-tuned and reasoning-augmented variants, we evaluate these models on a set of controlled tasks involving a mixture of state-tracking and recall primitives, state-based recall. Across tasks, we notice that reasoning augmentation provides the largest overall improvement, substantially extending the range of difficulty over which models remain effective. We also notice that in certain tasks, the hybrid reasoning model remains substantially more robust as sequential dependence increases. In contrast, the transformer reasoning model degrades sharply in performance as task difficulty increases beyond a given threshold. These results suggest that reasoning tokens and architectural inductive biases contribute at different levels of the computational process: explicit reasoning can expand a model's effective operating range, but its benefit depends on how well the underlying architecture supports persistent state propagation. Given the small size of our case study, which involves a limited set of models and tasks, we present these findings as suggestive rather than conclusive and leave broader validation across model families, scales, and task variations to future work.