活水快报 - 42Digest

具有多类型保护属性的机器学习:通过正则化的交叉公平性

Machine Learning with Multitype Protected Attributes: Intersectional Fairness through Regularisation

Ho Ming Lee, Katrien Antonio, Benjamin Avanzi, Lorenzo Marchi, Rui Zhou

arXiv

2025年9月9日

确保受保护属性(如性别或种族)的公平待遇(公平)是机器学习中的一个关键问题。大多数现有文献都侧重于二元分类,但在回归任务(如保险定价或招聘分数评估)中实现公平性同样重要。此外,反歧视法也适用于连续的属性,例如年龄,许多现有方法不适用。在实践中,多种受保护的属性可以同时存在;然而,针对多个属性的公平性的方法往往忽略了所谓的“公平性,从而忽略了交叉亚组(例如,非裔美国女性或西班牙裔男性)之间的差异。在本文中,我们提出了一个距离协方差正则化框架,该框架根据人口均值的公平定义,可降低模型预测与受保护属性之间的关联,并捕获线性和非线性依赖关系。为了在存在多个受保护属性的情况下增强适用性,我们扩展了我们的框架,它结合了基于距离协方差的两个多变量依赖措施:先前提出的联合距离协方差(JdCov)和我们新颖的连接距离协方差(CCdCov),它有效地解决了涉及各种类型的受保护属性的回归和分类任务中的公平性。我们讨论并说明了如何校准正则化强度,包括基于Jensen-Shannon发散的方法,该方法量化了各组预测分布的差异。我们将我们的框架应用于COMPAS累犯数据集和大型汽车保险索赔数据集。

Ensuring equitable treatment (fairness) across protected attributes (such as gender or ethnicity) is a critical issue in machine learning. Most existing literature focuses on binary classification, but achieving fairness in regression tasks-such as insurance pricing or hiring score assessments-is equally important. Moreover, anti-discrimination laws also apply to continuous attributes, such as age, for which many existing methods are not applicable. In practice, multiple protected attributes can...

机器学习风险管理应用统计学机器学习 (统计)

View Source