Prostate-VarBench: A Benchmark with Interpretable TabNet Framework for Prostate Cancer Variant Classification
Abraham Francisco Arellano Tavara, Umesh Kumar, Jathurshan Pradeepkumar and Jimeng Sun
不确定意义(VUS)的变体通过延迟诊断和治疗来限制前列腺癌基因组学的临床效用,当致病性或良性性的证据不完整时。 进展进一步受到不同来源不一致的注释和缺乏用于公平比较的前列腺特异性基准的限制。 我们引入了前列腺-VarBench,这是一种用于创建前列腺特异性基准的管道,该基准将COSMIC(体癌突变),ClinVar(专家策划的临床变体)和TCGA-PRAD(癌症基因组谱的前列腺肿瘤基因组学)集成到一个协调数据集中,其中包含193,278个变体,支持患者或基因感知分裂,以防止数据泄露。 为了确保数据完整性,我们纠正了变量效应预测器(VEP)问题,该问题合并了多个转录本记录,引入了临床显著性领域的模糊性。 然后,我们标准化了8个临床相关层的56个可解释特征,包括人群频率、变异类型和临床环境。 AlphaMissense致病性评分被纳入,以加强错误变异分类并减少VUS的不确定性。 基于这一资源,我们训练了一个可解释的TabNet模型来分类变异致病性,其循序渐进的稀疏面罩提供了与分子肿瘤委员会审查实践一致的每个案例理由。 在搁置的测试集上,该模型通过平衡的类指标实现了89.9%的准确率,VEP校正使VUS的绝对减少6.5%。
Variants of Uncertain Significance (VUS) limit the clinical utility of prostate cancer genomics by delaying diagnosis and therapy when evidence for pathogenicity or benignity is incomplete. Progress is further limited by inconsistent annotations across sources and the absence of a prostate-specific benchmark for fair comparison. We introduce Prostate-VarBench, a curated pipeline for creating prostate-specific benchmarks that integrates COSMIC (somatic cancer mutations), ClinVar (expert-curated c...