Back to list
arxiv_cs_lg 2026年4月24日

マルチレベル最適輸送を用いたモデル層と脳領域間の表現整合化

Representational Alignment Across Model Layers and Brain Regions with Multi-Level Optimal Transport

Translated: 2026/4/24 20:08:40
optimal-transportneural-representationmulti-level-learningbrain-computing-integrationneural-networks

Japanese Translation

arXiv:2510.01706v2 Announce Type: replace 要約:標準的な表現類似度解析(RSM)では、各ネットワーク層を他ネットワークとの最適な一致として個別に整合化し、非対称な結果をもたらします。これにより、グローバルな整合化スコアが得られず、異なる深さを持つネットワークの分析において課題が生じます。これらの限界は、グローバルな活性化構造を無視すること、および写像を頑丈な 1 対 1 の層対応に制限する点に起因します。私たちは、ソフトでグローバルに一貫した層間結合と神経レベルの輸送計画を同時に推定する「マルチレベル最適輸送(Multi-Level Optimal Transport, MOT)」という統一的な枠組みを提案します。MOT は、境界制約の下で総輸送コストを最小化しながら、ソースニューロンを複数の目的層に質量を分配することを許容します。これにより、ネットワーク全体に対する単一の整合化スコアと、質量分布を通じて自然に深さの不一致に対処できるソフトな輸送計画を得ることができます。私たちは MOT を視覚モデル、大型言語モデル、そして人間の視覚皮質の記録データで評価しました。すべてのドメインにおいて、MOT は標準的な対比匹配の整合化品質に匹敵するか、それを超える性能を示しました。さらに、それは滑らかで細粒度の階層的対応を明らかにします:早期層は早期層に、深い層は相対的位置を保ち、そして深さの不一致は複数の層へ表現を分配することで解決されます。これらの構造化されたパターンは貪欲層ごとの方法において欠如しているにもかかわらず、グローバル最適化から自然に生まれています。したがって、MOT は、特にアーキテクチャや深さが異なるネットワーク間の比較において、より豊かで解釈しやすい表現比較を可能にします。さらに、私達は本方法を 3 レベルの MOT フレームワークへと拡張し、トレーニング軌跡を跨る 2 つのネットワーク間の概念実證整合化を提供するとともに、貪欲層ごとの一致が見過ごすチェックポイント間の対応を MOT によって開示することを示しました。

Original Content

arXiv:2510.01706v2 Announce Type: replace Abstract: Standard representational similarity methods align each layer of a network to its best match in another independently, producing asymmetric results, lacking a global alignment score, and struggling with networks of different depths. These limitations arise from ignoring global activation structure and restricting mappings to rigid one-to-one layer correspondences. We propose Multi-Level Optimal Transport (MOT), a unified framework that jointly infers soft, globally consistent layer-to-layer couplings and neuron-level transport plans. MOT allows source neurons to distribute mass across multiple target layers while minimizing total transport cost under marginal constraints. This yields both a single alignment score for the entire network comparison and a soft transport plan that naturally handles depth mismatches through mass distribution. We evaluate MOT on vision models, large language models, and human visual cortex recordings. Across all domains, MOT matches or surpasses standard pairwise matching in alignment quality. Moreover, it reveals smooth, fine-grained hierarchical correspondences: early layers map to early layers, deeper layers maintain relative positions, and depth mismatches are resolved by distributing representations across multiple layers. These structured patterns emerge naturally from global optimization without being imposed, yet are absent in greedy layer-wise methods. MOT thus enables richer, more interpretable comparisons between representations, particularly when networks differ in architecture or depth. We further extend our method to a three-level MOT framework, providing a proof-of-concept alignment of two networks across their training trajectories and demonstrating that MOT uncovers checkpoint-wise correspondences missed by greedy layer-wise matching.