Data distribution impacts the performance and generalisability of contrastive learning-based foundation models of electrocardiograms
Gul Rukh Khattak, Konstantinos Patlatzoglou, Joseph Barker, Libor Pastika, Boroumand Zeidaabadi, Ahmed El-Medany, Hesham Aggour, Yixiu Liang, Antonio H. Ribeiro, Jeffrey Annis, Antonio Luiz Pinho Ribeiro, Junbo Ge, Daniel B. Kramer, Jonathan W. Waks, Evan Brittain, Nicholas Peters, Fu Siong Ng, Arunashis Sau
逆向学习是一种广泛采用的自我监督预训练策略,但它对队列组成的依赖性仍然没有得到探索。 我们介绍了患者增强心电图(CAPE)基础模型的对比,并针对来自三大洲(北美,南美,亚洲)的不同人群的四个队列(n = 5,203,352)进行了预训练。 我们系统地评估队列人口统计,健康状况和人口多样性如何影响预测任务的下游表现,还包括来自另一个大陆(欧洲)的另外两个队列。 我们发现下游性能取决于预训练队列的分布特性,包括人口统计和健康状况。 此外,虽然使用多中心,人口统计学上多样化的队列进行预训练可以提高分布内的准确性,但它通过编码队列特定的工件来减少我们对比方法的分布外(OOD)泛化。 为了解决这个问题,我们提出了分销批次(IDB)战略,该战略在预训练期间保持队列内的一致性,并提高OD稳健性。 这项工作为开发临床公平和可推广的基础模型提供了重要的见解。
Contrastive learning is a widely adopted self-supervised pretraining strategy, yet its dependence on cohort composition remains underexplored. We present Contrasting by Patient Augmented Electrocardiograms (CAPE) foundation model and pretrain on four cohorts (n = 5,203,352), from diverse populations across three continents (North America, South America, Asia). We systematically assess how cohort demographics, health status, and population diversity influence the downstream performance for predic...