42digest首页
多证据框架拯救低功耗预测信号并拒绝癌症基因组学中的统计人工制品

A Multi-Evidence Framework Rescues Low-Power Prognostic Signals and Rejects Statistical Artifacts in Cancer Genomics

Gokturk Aytug Akarlar

arXiv
2025年10月21日

动机:癌症基因组学中的标准全基因组关联研究依赖于具有多个测试校正的统计意义,但在动力不足的队列中系统性地失败。 在TCGA乳腺癌(n=967,133例死亡)中,低事件率(13.8%)造成严重的功率限制,为已知驱动器产生假阴性,为大型乘客基因产生假阳性。 结果:我们开发了一个五标准计算框架,将因果推理(逆概率加权,双稳健估计)与正交生物验证(表达,突变模式,文献证据)相结合。 应用于TCGA-BRCA死亡率分析,标准Cox+FDR在FDR<0.05检测到零基因,确认在动力不足的环境中完全失败。 我们的框架正确地识别了RYR2(没有癌症功能的心脏基因)作为假阳性,尽管名义意义(p=0.024),同时将KMT2C识别为需要验证的复杂候选者,尽管具有边际意义(p=0.047,q=0.954)。 功率分析显示,基因的中位功率为15.1%,KMT2C仅达到29.8%的功率(HR=1.55),尽管存在强大的生物学证据,但解释了边缘统计意义。 该框架通过突变模式分析区分了来自工件的真实信号:RYR2显示29.8%的静默突变(乘客签名),没有热点,而KMT2C显示6.7%的静默突变,31.4%截断变体(驱动程序签名)。 这种多证据方法为分析动力不足的队列提供了一个模板,将生物可解释性优先于纯粹的统计意义。 可用性:所有代码和分析管道可在github.com/akarlaraytu/causal-inference-for-cancer-genomics上获得

Motivation: Standard genome-wide association studies in cancer genomics rely on statistical significance with multiple testing correction, but systematically fail in underpowered cohorts. In TCGA breast cancer (n=967, 133 deaths), low event rates (13.8%) create severe power limitations, producing false negatives for known drivers and false positives for large passenger genes. Results: We developed a five-criteria computational framework integrating causal inference (inverse probability weighting...