42digest
政策梯度与第二秩序势头

Policy Gradient with Second Order Momentum

Tianyu Sun

arXiv
2025年5月16日

我们通过二阶动量(PG-SOM)开发策略梯度,这是一种用于强化学习策略的轻量级二阶优化方案。 PG-SOM通过两个指数加权统计数据增强了经典的REINFORCE更新:一阶梯度平均值和对角线的Hessian。 通过这种曲率估计来预置梯度,该方法自适应地重新缩放每个参数,产生更快,更稳定的预期返回。 我们提供简明的推导,确定对角线Hessian estimator在温和的规律性假设下是无偏和正定义的,并证明由此产生的更新是预期的下降方向。 标准控制基准上的数值实验显示,与一阶和费舍尔基数基线相比,样品效率提高了2.1倍,方差显着降低。 这些结果表明,即使是粗糙的二阶信息也能带来显着的实际收益,同时仅产生D内存开销的D参数策略。 所有代码和可重复性脚本都将公开提供。

We develop Policy Gradient with Second-Order Momentum (PG-SOM), a lightweight second-order optimisation scheme for reinforcement-learning policies. PG-SOM augments the classical REINFORCE update with two exponentially weighted statistics: a first-order gradient average and a diagonal approximation of the Hessian. By preconditioning the gradient with this curvature estimate, the method adaptively rescales each parameter, yielding faster and more stable ascent of the expected return. We provide a ...