42digest
从嘈杂的偏好学习 - 优先学习的相对最优奖励:多目标逆强化学习的框架

Learning Pareto-Optimal Rewards from Noisy Preferences: A Framework for Multi-Objective Inverse Reinforcement Learning

Kalyan Cherukuri, Aarav Lala

arXiv
2025年5月17日

随着生成剂变得越来越有能力,它们的行为与复杂的人类价值保持一致仍然是一个基本挑战。 现有方法通常通过减少到标量奖励来简化人类的意图,从而忽视人类反馈的多方面性质。 在这项工作中,我们引入了基于偏好的多目标逆加强化学习(MO-IRL)的理论框架,其中人类的偏好被建模为潜在的矢量值奖励函数。 我们正式确定了从嘈杂的偏好查询中恢复帕累托最优奖励表示的问题,并为确定底层多目标结构创造条件。 我们得出严格的样本复杂性边界,用于恢复 ε-近似帕累托前部,并引入了一个遗憾公式,以量化这种多目标设置中的次优性。 此外,我们提出了一个可证明的收敛算法,用于使用偏好推断的奖励圆锥体进行策略优化。 我们的结果弥合了实践对齐技术和理论保证之间的差距,为在高维度和价值多元化环境中学习对齐行为提供了原则基础。

As generative agents become increasingly capable, alignment of their behavior with complex human values remains a fundamental challenge. Existing approaches often simplify human intent through reduction to a scalar reward, overlooking the multi-faceted nature of human feedback. In this work, we introduce a theoretical framework for preference-based Multi-Objective Inverse Reinforcement Learning (MO-IRL), where human preferences are modeled as latent vector-valued reward functions. We formalize t...