Moral Change or Noise? On Problems of Aligning AI With Temporally Unstable Human Feedback
Vijay Keswani, Cyrus Cousins, Breanna Nguyen, Vincent Conitzer, Hoda Heidari, Jana Schaich Borg, and Walter Sinnott-Armstrong
道德领域的对齐方法试图引起人类利益相关者的道德偏好,并将其纳入人工智能。 这预设了道德偏好作为静态目标,但这种偏好往往会随着时间的推移而演变。 人工智能与动态人类偏好的正确对齐,最好应该考虑到道德推理的“合法”变化,而忽略与注意力缺陷,认知偏差或其他任意因素相关的变化。 然而,常见的AI对齐方法在很大程度上忽略了偏好的时间变化,对适当的对齐提出了严峻的挑战,特别是在人工智能的高风险应用中,例如,在医疗保健领域,错位可能会危及系统的可信度并产生严重的个人和社会危害。 这项工作调查了人们的道德偏好随时间变化的程度,以及这些变化对AI对齐的影响。 我们的研究基于肾脏分配领域,在那里,我们对来自3-5个疗程的400多名参与者的假想肾移植患者的成双对比较做出了反应。 我们发现,平均而言,参与者在6-20%的时间(表现出“反应不稳定”)的不同时间对同一场景的反应。 此外,我们观察到几个参与者的改造决策模型随时间(捕捉“模型不稳定”)发生了重大变化。 简单AI模型的预测性能作为响应和模型不稳定的函数而下降。 此外,预测性能随着时间的推移而下降,突出了在训练期间考虑偏好时间变化的重要性。 这些发现提出了与AI对齐相关的基本规范和技术挑战,突出表明当用户偏好随着时间的推移显着变化时,需要更好地了解对齐对象(与什么对齐)。
Alignment methods in moral domains seek to elicit moral preferences of human stakeholders and incorporate them into AI. This presupposes moral preferences as static targets, but such preferences often evolve over time. Proper alignment of AI to dynamic human preferences should ideally account for "legitimate" changes to moral reasoning, while ignoring changes related to attention deficits, cognitive biases, or other arbitrary factors. However, common AI alignment approaches largely neglect tempo...