Back to list
InVitroVision: 自然言語を用いて胚の発達を自動記述するためのマルチモーダル AI モデル
InVitroVision: a Multi-Modal AI Model for Automated Description of Embryo Development using Natural Language
Translated: 2026/4/24 20:15:21
Japanese Translation
arXiv:2604.21061v1 発表型:新規
要約: 人工知能(AI)の応用が IVF(体外受精)の決定の一貫性と標準化の向上に有望であるにもかかわらず、多くのケースではアノテーションされたデータに依存しており、IVF データのマルチモーダルな性質を十分に活用していない。本研究では、基礎的なビジョン・言語モデルを微調整して、胚の形態と発達の自然言語記述を予測できるかどうかを調査した。公衆公開されている胚のタイムラプスデータセットを用い、1,000 画像とその対応するキャプションのみで、胚の形態、胚細胞分裂、発達段階を記述するマルチモーダルビジョン・言語モデルである PaliGemma-2 を微調整した。われらの結果は、微調整したモデル InVitroVision が、商用モデルである ChatGPT 5.2 や基礎モデルよりも全体的な指標で優れていることを示しており、学習データセットが大きくなるほど性能が向上することを示した。本研究は、基礎的なビジョン・言語モデルが限られたデータで IVF タスクに汎用化できる可能性、そして胚の形態と発達の自然言語記述の予測を可能にする点を明らかにした。この手法は、大規模言語モデルを使用して関連出版物とガイドラインから情報を検索し、科学的証拠を調べることを容易にし、IVF の下流タスクに対するショット数少ない適応にも意味を有する。
Original Content
arXiv:2604.21061v1 Announce Type: new
Abstract: The application of artificial intelligence (AI) in IVF has shown promise in improving consistency and standardization of decisions, but often relies on annotated data and does not make use of the multimodal nature of IVF data. We investigated whether foundational vision-language models can be fine-tuned to predict natural language descriptions of embryo morphology and development. Using a publicly available embryo time-lapse dataset, we fine-tuned PaliGemma-2, a multi-modal vision-language model, with only 1,000 images and corresponding captions, describing embryo morphology, embryonic cell cycle and developmental stage. Our results show that the fine-tuned model, InVitroVision, outperformed a commercial model, ChatGPT 5.2, and base models in overall metrics, with performance improving with larger training datasets. This study demonstrates the potential of foundational vision-language models to generalize to IVF tasks with limited data, enabling the prediction of natural language descriptions of embryo morphology and development. This approach may facilitate the use of large language models to retrieve information and scientific evidence from relevant publications and guidelines, and has implications for few-shot adaptation to multiple downstream tasks in IVF.