活水快报 - 42Digest

FP-IRL:福克-普朗克逆力强化学习——马尔可夫决策过程的受物理约束方法

FP-IRL: Fokker-Planck Inverse Reinforcement Learning – A Physics-Constrained Approach to Markov Decision Processes

Chengyang Huang and Siddhartha Srivastava and Kenneth K. Y. Ho and Kathy E. Luker and Gary D. Luker and Xun Huan and Krishna Garikipati

arXiv

2023年6月17日

反向强化学习(IRL)是一种强大的范式,用于揭示驱动代理行为的激励结构,通过在马尔可夫决策过程(MDP)中从观察到的轨迹中推断出未知的奖励函数。然而,大多数现有的IRL方法都需要访问过渡函数,无论是规定还是先验估计,当底层动力学未知,不可观察或不容易采样时,这会带来重大挑战。我们提出了Fokker-Planck逆强化学习(FP-IRL),这是一个新颖的物理约束IRL框架,专为受福克-普朗克(FP)动力学管理的系统而设计。 FP-IRL同时直接从轨迹数据中推断奖励和过渡功能,而无需访问采样过渡。我们的方法利用了MDP和FP方程之间的猜想等价物,将MDP中的奖励最大化与FP动力学中的自由能量最小化联系起来。这种连接可以使用我们的变异系统识别推理方法推断潜在的功能,从中可以使用分析表达式恢复全套MDP组件 - 奖励,过渡和政策。我们通过合成基准实验和山地车问题的修改版本证明了FP-IRL的有效性。我们的结果表明,FP-IRL实现了精确恢复代理激励,同时保持计算效率和物理可解释性。

Inverse reinforcement learning (IRL) is a powerful paradigm for uncovering the incentive structure that drives agent behavior, by inferring an unknown reward function from observed trajectories within a Markov decision process (MDP). However, most existing IRL methods require access to the transition function, either prescribed or estimated a priori, which poses significant challenges when the underlying dynamics are unknown, unobservable, or not easily sampled. We propose Fokker–Planck inverse ...

机器学习人工智能生物物理学细胞行为

View Source