Back to list
arxiv_cs_lg 2026年4月24日

保健システム規模におけるバーチャル患者表現のためのマルチモーダル・時間的ファウンデーションモデル

A multimodal and temporal foundation model for virtual patient representations at healthcare system scale

Translated: 2026/4/24 20:10:54
apollo-modelmulti-modal-foundation-modelclinical-representationvirtual-patientcomputable-medicine

Japanese Translation

arXiv:2604.18570v2 発表タイプ: 置換 要約:現代の医療は、サイロ化したシステムを超えた広大なマルチモーダルデータを生成していますが、既存のモデルはいずれも臨床記録の全幅と時間的な深さを統合した統一された患者表現を提供していません。私たちは、主要な米国の病院システムから得られた、3 年以上にわたる縦断的な病院記録を 250 億以上の記録から、720 万の患者でトレーニング・評価した、マルチモーダル・時間的ファウンデーションモデル「Apollo」を導入します。Apollo は、28 つの異なる医療模式と 12 つの主要な医療専門分野を構成し、2 万数千個のユニークな医療イベント、画像、および臨床文書を統合する統一表現空間を学習します。この「医療概念のアトラス」は、Apollo が圧縮する構造化されたイベントおよび非構造化イベントのシークエンスからなる患者ケアの全体行程をモデル化する計算基盤となります。これらの患者全体の表現の可能性を評価するため、140 万の患者から残されたテストセットに基づき、322 件の予後および検索タスクを作成しました。私たちは、Apollo の埋め込みの一般化された臨床予言の可能性を示し、5 年以上の先新疾患発症リスクの予測(95 件)、疾病進行(78 件)、治療応答(59 件)、治療関連有害事象のリスク(17 件)、および病院運営終端点(12 件)を含みます。特徴歸属技術を使用して、我々はモデルの予測が臨床的に解釈可能なマルチモーダルバイオマーカーと一致することを示しました。61 件の検索タスク上で意味的な類似性検索を評価し、さらに Apollo をテキストおよび画像クエリを使用したマルチモーダル医療検索エンジンとしての可能性を示しました。これらのモデル化機能は、患者ケアの全コンテキストを計算推論にアクセス可能にする、可算医学の基礎を確立します。

Original Content

arXiv:2604.18570v2 Announce Type: replace Abstract: Modern medicine generates vast multimodal data across siloed systems, yet no existing model integrates the full breadth and temporal depth of the clinical record into a unified patient representation. We introduce Apollo, a multimodal temporal foundation model trained and evaluated on over three decades of longitudinal hospital records from a major US hospital system, composed of 25 billion records from 7.2 million patients, representing 28 distinct medical modalities and 12 major medical specialties. Apollo learns a unified representation space integrating over 100 thousand unique medical events in our clinical vocabulary as well as images and clinical text. This "atlas of medical concepts" forms a computational substrate for modeling entire patient care journeys comprised of sequences of structured and unstructured events, which are compressed by Apollo into virtual patient representations. To assess the potential of these whole-patient representations, we created 322 prognosis and retrieval tasks from a held-out test set of 1.4 million patients. We demonstrate the generalized clinical forecasting potential of Apollo embeddings, including predicting new disease onset risk up to five years in advance (95 tasks), disease progression (78 tasks), treatment response (59 tasks), risk of treatment-related adverse events (17 tasks), and hospital operations endpoints (12 tasks). Using feature attribution techniques, we show that model predictions align with clinically-interpretable multimodal biomarkers. We evaluate semantic similarity search on 61 retrieval tasks, and moreover demonstrate the potential of Apollo as a multimodal medical search engine using text and image queries. Together, these modeling capabilities establish the foundation for computable medicine, where the full context of patient care becomes accessible to computational reasoning.