Misaligned by Design: Incentive Failures in Machine Learning
David Autor, Andrew Caplin, Daniel Martin, Philip Marx
许多高风险设置的错误成本是不对称的:在缺席时误诊肺炎是一种不便,但当存在时未能检测到它可能会危及生命。 因此,用于协助此类决策的人工智能(AI)模型经常接受非对称损失功能的培训,该功能包括人类决策者在误报和假否定之间的权衡。 在两个焦应用中,我们表明这种标准的对齐做法可能会适得其反。 在这两种情况下,最好训练机器学习模型,其损失函数忽略了人类的目标,然后根据该目标调整预测。 我们使用激励设计的经济模型与内生信息获取来合理化这一结果。 我们理论框架的关键见解是,机器分类器执行的两个激励任务不是一项,而是两个激励任务:选择如何分类和学习如何分类。 我们表明,虽然工程师使用正确的调整激励选择,他们可以同时减少学习的激励。 我们对问题的正式处理表明,接受其直观吸引力的方法实际上会以可预测的方式错位人类和机器目标。
The cost of error in many high-stakes settings is asymmetric: misdiagnosing pneumonia when absent is an inconvenience, but failing to detect it when present can be life-threatening. Because of this, artificial intelligence (AI) models used to assist such decisions are frequently trained with asymmetric loss functions that incorporate human decision-makers' trade-offs between false positives and false negatives. In two focal applications, we show that this standard alignment practice can backfire...