Back to list
scpFormer:単一細胞プロテオミクスの統一表現と統合のための基礎モデル
scpFormer: A Foundation Model for Unified Representation and Integration of the Single-Cell Proteomics
Translated: 2026/4/24 20:03:12
Japanese Translation
arXiv:2604.20003v1 Announce Type: cross
Abstract: 単一細胞プロテオミクデータの統合は、標的抗体パネルの断片的な性質によってしばしば妨げられます。この課題に対処するため、私たちは単一細胞プロテオミクスを想定して設計されたトランスフォーマーベースの基礎モデルである scpFormer を紹介しました。3 億 9,000 万細胞以上のデータで事前学習された scpFormer は、標準的なインデックスベースのトークナイゼーションに代わり、連続的なシークンス・アンカーアプローチを採用しています。進化スケールモデリング (ESM) とバリュー感度表現エMBEDDINGS を組み合わせることで、変化するパネルを人工的な離散的な処理なしに共有される意味空間へ動的にマッピングします。私たちは、scpFormer が大規模バッチ統合と教師なしクラスタリングにおいて競合的パフォーマンスを示す大規模な細胞表現を生み出すことを示しました。さらに、そのオープン・ボキャブラリアーキテクチャは in silico パネル展開を可能にし、スパースな臨床データセットにおける生物学的多面体の再構成を助けます。最後に、学習されたプロテイン共発現論理はバルク・オミクスタスクに転用可能であり、がん薬剤応答予測などの応用をサポートします。scpFormer はスケーラブルなバイオマーカー発見と精度がん療法の促進に寄与する汎用でパネル非依存のフレームワークを提供します。
Original Content
arXiv:2604.20003v1 Announce Type: cross
Abstract: The integration of single-cell proteomic data is often hindered by the fragmented nature of targeted antibody panels. To address this limitation, we introduce scpFormer, a transformer-based foundation model designed for single-cell proteomics. Pre-trained on over 390 million cells, scpFormer replaces standard index-based tokenization with a continuous, sequence-anchored approach. By combining Evolutionary Scale Modeling (ESM) with value-aware expression embeddings, it dynamically maps variable panels into a shared semantic space without artificial discretization. We demonstrate that scpFormer generates global cell representations that perform competitively in large-scale batch integration and unsupervised clustering. Moreover, its open-vocabulary architecture facilitates in silico panel expansion, assisting in the reconstruction of biological manifolds in sparse clinical datasets. Finally, this learned protein co-expression logic is transferable to bulk-omics tasks, supporting applications like cancer drug response prediction. scpFormer provides a versatile, panel-agnostic framework to facilitate scalable biomarker discovery and precision oncology.