Back to list
arxiv_cs_lg 2026年2月10日

効率的なトランスフォーマーアーキテクチャのためのハイブリッド双路直交変換

Hybrid Dual-Path Linear Transformations for Efficient Transformer Architectures

Translated: 2026/3/15 13:03:34
transformermachine-learningneural-architecture-searchdeep-learningarxiv

Japanese Translation

arXiv:2602.07070v1 発表 タイプ:新規 要旨:標準的なトランスフォーマーアーキテクチャは、密集した直交変換に大きく依存しており、機能プロジェクションを単一、フルランクの操作とみなしています。我々は、この表現は非効率的であるとともに、局所的な機能保持と世界的な文脈統合を区別する構造上の归纳バイアスを欠くものであると主張します。この問題に対処するため、我々はアフィン変換を二つのトポロジカルに異なる経路に分解するハイブリッド双路直交(HDPL)演算子を導入しました:一つは高ランクの局所的処理用の疎ブロック対角線成分、もう一つは世界的な文脈規制用の低ランクのベクトルオートエンコーダー(VAE)ボトルネックです。特定の投影(Query, Key, Value, Gate, Up)を HDPL 演算子で「外科手術的に」置き換えつつ、アグリゲーション(Output, Down)用の標準的な密集層を維持することで、効率性と表現力の優越なバランスを実現しました。FineWeb-Eduデータセットにおける実験では、HDPL アーキテクチャが標準的な Llama スタイルのベースラインを凌駕し、検証損失を減少させると同時にパラメータ数を 6.8% 削減しました。性能の向上だけでなく、トランスフォーマーのバックボーン内で確率的な潜在空間を明示的にマテリアライズすることによる建築的 affordance についても議論し、推論時の制御やハイパーネットワーク誘発制御、継続的適応、解釈可能性、およびモデル間やモーダル間同期のために新たな道筋を提供することを示唆します。コードは以下にアクセス可能です:https://github.com/VladimerKhasia/HDPL

Original Content

arXiv:2602.07070v1 Announce Type: new Abstract: Standard Transformer architectures rely heavily on dense linear transformations, treating feature projection as a monolithic, full-rank operation. We argue that this formulation is inefficient and lacks the structural inductive bias necessary for distinguishing between local feature preservation and global context integration. To address this, we introduce the Hybrid Dual-Path Linear (HDPL) operator, which decomposes the affine transformation into two topologically distinct pathways: a sparse block-diagonal component for high-rank local processing, and a low-rank Variational Autoencoder (VAE) bottleneck for global context regularization. By "surgically" replacing specific projections (Query, Key, Value, Gate, Up) with HDPL operators while retaining standard dense layers for aggregation (Output, Down), we achieve a superior balance of efficiency and representational power. Experiments on the FineWeb-Edu dataset demonstrate that the HDPL architecture outperforms a standard Llama-style baseline, reducing validation loss while simultaneously reducing parameter count by 6.8%. Beyond immediate performance gains, we discuss how the explicit materialization of a probabilistic latent space within the Transformer backbone serves as a vital architectural affordance, offering new pathways for inference-time or hypernetwork induced control, continual adaptation, interpretability, and cross-model or cross-modal synchronization. The code is available at https://github.com/VladimerKhasia/HDPL