Back to list
階層的視覚埋め込みを用いた脳表現の学習
Learning Brain Representation with Hierarchical Visual Embeddings
Translated: 2026/3/15 18:03:26
Japanese Translation
arXiv:2602.07495v1 Announce Type: new
Abstract: 脳信号から視覚表現を解読する技術は、神経科学および人工知能の両分野で大きな注目を集めています。しかし、脳信号がどれだけ真に視覚情報を符号化しているかはまだ不明確です。現在の視覚解読アプローチは多様な脳画像一致戦略を探求していますが、大半は上位のセマンティック特性に焦点を当てており、ピクセルレベルの詳細を軽視することで、人間の視覚システムへの理解を制限しています。本稿では、複数の事前トレーニング済み視覚エンコーダーを多様な誘導バイアスとともに活用し、階層的かつマルチスケールの視覚表現を捉え、同時に対比学習的目标を採用することで脳信号と視覚埋め込み間の効果的な一致を達成する脳画像一致戦略を提案します。さらに、大規模な視覚データ上で安定した写像を学習し、その事前トレーニング済み先行物に脳特性を一致させることで、モダリティ間での分布的一貫性を向上させる融合先行(Fusion Prior)を導入します。広範な定量および定性実験は、我々の手法が取得精度と再構成忠実度との間に良好なバランスを示すことを示しています。
Original Content
arXiv:2602.07495v1 Announce Type: new
Abstract: Decoding visual representations from brain signals has attracted significant attention in both neuroscience and artificial intelligence. However, the degree to which brain signals truly encode visual information remains unclear. Current visual decoding approaches explore various brain-image alignment strategies, yet most emphasize high-level semantic features while neglecting pixel-level details, thereby limiting our understanding of the human visual system. In this paper, we propose a brain-image alignment strategy that leverages multiple pre-trained visual encoders with distinct inductive biases to capture hierarchical and multi-scale visual representations, while employing a contrastive learning objective to achieve effective alignment between brain signals and visual embeddings. Furthermore, we introduce a Fusion Prior, which learns a stable mapping on large-scale visual data and subsequently matches brain features to this pre-trained prior, thereby enhancing distributional consistency across modalities. Extensive quantitative and qualitative experiments demonstrate that our method achieves a favorable balance between retrieval accuracy and reconstruction fidelity.