Robust Reinforcement Learning with Dynamic Distortion Risk Measures
Anthony Coache, Sebastian Jaimungal
在强化学习(RL)设置中,代理的最佳策略在很大程度上取决于她的风险偏好和培训环境的潜在模型动态。 这两个方面会影响代理商在面对测试环境时做出消息灵通和时间一致决策的能力。 在这项工作中,我们设计了一个框架来解决强大的风险感知RL问题,其中我们同时考虑环境不确定性和风险,并采取了一类动态强的失真风险措施。 稳健性是通过考虑Wasserstein球中围绕参考模型的所有模型引入的。 我们通过使用严格一致的评分函数来估计使用神经网络的动态稳健风险度量,使用扭曲风险度量的分位数表示导出策略梯度公式,并构建一个 actor-critic 算法来解决这类强效风险感知 RL 问题。 我们在投资组合分配示例上演示了算法的性能。
In a reinforcement learning (RL) setting, the agent's optimal strategy heavily depends on her risk preferences and the underlying model dynamics of the training environment. These two aspects influence the agent's ability to make well-informed and time-consistent decisions when facing testing environments. In this work, we devise a framework to solve robust risk-aware RL problems where we simultaneously account for environmental uncertainty and risk with a class of dynamic robust distortion risk...