42digest首页
通过学习代理的遗憾边界进行强化学习

Transfer in Reinforcement Learning via Regret Bounds for Learning Agents

Adrienne Tuynman and Ronald Ortner

arXiv
2022年2月2日

我们提出了一种方法,用于量化通过多代理设置的遗憾边界进行强化学习转移的有用性。 考虑到许多 א 代理人在同一马尔可夫决策过程中运作,但可能具有不同的奖励功能,我们认为每个代理人在最佳政策最大化她的平均奖励方面遭受的遗憾。 我们表明,当代理人分享他们的观察时,与每个代理人必须依靠自己收集的信息的情况相比,所有代理人的完全遗憾都小于√(א)的系数。 这一结果表明,在多代理设置中考虑后悔可以提供在迁移学习中分享观察的好处的理论界限。

We present an approach for the quantification of the usefulness of transfer in reinforcement learning via regret bounds for a multi-agent setting. Considering a number of ℵ agents operating in the same Markov decision process, however possibly with different reward functions, we consider the regret each agent suffers with respect to an optimal policy maximizing her average reward. We show that when the agents share their observations the total regret of all agents is smaller by a factor of √(ℵ) ...