活水快报 - 42Digest

生成式医疗事件模型性能随规模扩展而提升

Generative Medical Event Models Improve with Scale

Shane Waxler, Paul Blazek, Davis White, Daniel Sneider, Kevin Chung, Mani Nagarathnam, Patrick Williams, Hank Voeller, Karen Wong, Matthew Swanhorst, Sheng Zhang, Naoto Usuyama, Cliff Wong, Tristan Naumann, Hoifung Poon, Andrew Loza, Daniella Meeker, Seth Hain, and Rahul Shah

arXiv

2025年8月16日

实现规模化个性化医疗需要能够从纵向患者病程中提炼洞察的方法，这些病程可视为一系列医疗事件。基于大规模医疗事件数据预训练的基础模型代表了扩展真实世界证据生成并泛化到多样化下游任务的有前景方向。利用Epic Cosmos数据集——包含来自310个医疗系统的3亿独特患者记录的163亿次就诊的去标识化纵向健康记录中的医疗事件，我们引入了Cosmos医疗事件transformer（CoMET）模型系列，这是一组仅在解码器端使用的transformer模型，在1.18亿患者代表的1150亿个离散医疗事件（1510亿个token）上进行了预训练。我们提出了医疗事件数据领域最大规模的缩放定律研究，建立了预训练方法学并揭示了计算量、token数量和模型规模之间的幂律缩放关系。基于此，我们预训练了一系列计算最优模型，参数规模高达10亿。基于患者的真实世界历史，CoMET自回归地生成下一个医疗事件，模拟患者健康时间线。我们研究了78个真实世界任务，包括诊断预测、疾病预后和医疗运营。值得注意的是，对于一个具有通用预训练和基于模拟推理的基础模型，CoMET在这些任务上通常优于或匹配特定任务的监督模型，且无需特定任务的微调或少样本示例。CoMET的预测能力随着模型和预训练规模的扩大而持续提升。我们的结果表明，CoMET这一生成式医疗事件基础模型能够有效捕捉复杂的临床动态，提供一个可扩展和可泛化的框架来支持临床决策、简化医疗运营并改善患者结局。

Realizing personalized medicine at scale calls for methods that distill insights from longitudinal patient journeys, which can be viewed as a sequence of medical events. Foundation models pretrained on large-scale medical event data represent a promising direction for scaling real-world evidence generation and generalizing to diverse downstream tasks. Using Epic Cosmos, a dataset with medical events from de-identified longitudinal health records for 16.3 billion encounters over 300 million uniqu...

机器学习人工智能计算与语言

View Source