42digest首页
关于校准在基准算法公平性皮肤癌检测中的作用

On the Role of Calibration in Benchmarking Algorithmic Fairness for Skin Cancer Detection

Brandon Dominique, Prudence Lam, Nicholas Kurtansky, Jochen Weber, Kivanc Kose, Veronica Rotemberg, Jennifer Dy

arXiv
2025年11月10日

人工智能(AI)模型在黑色素瘤检测方面表现出专家级表现,但其临床采用受到性别,种族和年龄等人口分组的性能差异的阻碍。 以前对人工智能模型的性能进行基准测试的努力主要集中在使用依赖于接收器操作特征曲线(AUROC)下的区域的团体公平指标来评估模型性能,该指标没有提供模型提供准确估计能力的见解。 根据临床评估,本文通过将校准作为基于AUROC的公平性指标的补充基准指标来解决这一差距。 校准评估预测概率和观察到的事件速率之间的对齐,为亚组偏差提供了更深入的见解。 我们评估了ISIC 2020 Challenge和PROVE-AI数据集上领先的ISIC 2020 Challenge皮肤癌检测算法的性能,并将其与第二和第三位模型进行比较,重点关注按性别,种族(Fitzpatrick Skin Tone)和年龄定义的子组。 我们的研究结果表明,虽然现有模型提高了判别的准确性,但它们在应用于新数据集时通常会过度诊断风险并表现出校准问题。 这项研究强调了全面模型审计策略和广泛的元数据收集以实现公平的人工智能驱动的医疗保健解决方案的必要性。 所有代码均可在https://github.com/bdominique/testing_strong_calibration上公开。

Artificial Intelligence (AI) models have demonstrated expert-level performance in melanoma detection, yet their clinical adoption is hindered by performance disparities across demographic subgroups such as gender, race, and age. Previous efforts to benchmark the performance of AI models have primarily focused on assessing model performance using group fairness metrics that rely on the Area Under the Receiver Operating Characteristic curve (AUROC), which does not provide insights into a model's a...