A Cautionary Tale on Integrating Studies with Disparate Outcome Measures for Causal Inference
Harsh Parikh, Trang Quynh Nguyen, Elizabeth A. Stuart, Kara E. Rudolph, Caleb H. Miles
数据整合方法正日益被用于提高研究效率和泛化能力。然而,这些方法的关键局限性在于假设不同数据集的结果指标是相同的——这一假设在实践中往往不成立。考虑以下阿片类物质使用障碍 (OUD) 研究:XBOT 试验和 POAT 研究,两者均评估药物对 OUD 患者戒断症状严重程度的影响(并非两项试验的主要结果)。XBOT 使用主观阿片类物质戒断量表来衡量戒断症状严重程度,而 POAT 使用临床阿片类物质戒断量表。我们分析了这种现实但具有挑战性的情况,即不同研究的结果指标不同,并且两项研究均未记录两种类型的指标。本文研究了整合具有不同结果指标的研究是否以及何时能够带来效率提升。我们引入了三组假设——具有不同强度——来关联两种结果指标。我们的理论和实证结果提出了一个警示性案例:只有在关联结果指标的最强假设下,整合才能提高渐近效率。然而,对该假设的错误设定会导致偏差。相反,较温和的假设可能产生有限样本效率提升,但随着样本量的增加,这些收益会减少。我们通过整合 XBOT 和 POAT 数据集来估计两种药物对阿片类物质使用障碍患者戒断症状的比较效果,从而说明了这些权衡。通过系统地改变关联 SOW 和 COW 量表的假设,我们展示了潜在的效率提升和偏差风险。我们的研究结果强调了在融合具有不同结果指标的数据集时,仔细选择假设的必要性,并为研究人员提供了应对现代数据整合中这一常见挑战的指导。
Data integration approaches are increasingly used to enhance the efficiency and generalizability of studies. However, a key limitation of these methods is the assumption that outcome measures are identical across datasets – an assumption that often does not hold in practice. Consider the following opioid use disorder (OUD) studies: the XBOT trial and the POAT study, both evaluating the effect of medications for OUD on withdrawal symptom severity (not the primary outcome of either trial). While X...