Emergence of hybrid computational dynamics through reinforcement learning
Roman A. Kononov, Nikita A. Pospelov, Konstantin V. Anokhin, Vladimir V. Nekorkin, Oleg V. Maslennikov
了解学习算法如何塑造神经网络中出现的计算策略仍然是机器智能的一个基本挑战。 虽然网络架构受到广泛关注,但学习范式本身在决定紧急动态方面的作用在很大程度上仍未得到探索。 在这里,我们证明强化学习(RL)和监督学习(SL)在相同的决策任务上训练时,会驱动循环神经网络(RNN)走向根本不同的计算解决方案。 通过系统动力学系统分析,我们揭示了RL自发地发现了混合吸引器架构,将稳定的定点吸引器与准周期性吸引器相结合,以实现灵活的证据集成。 这与SL形成鲜明对比,SL几乎完全收敛于简单的仅定点解决方案。 我们进一步证明,RL通过一种强大的隐式正则化形式来雕刻功能平衡的神经人群 - 一种增强健壮性的结构特征,并且在SL训练的网络中发现的更异构的解决方案中明显不存在。 RL中这些复杂动力学的普遍性由重量初始化控制地调节,并与性能增益密切相关,特别是随着任务复杂性的增加。 我们的研究结果将学习算法确立为紧急计算的主要决定因素,揭示了基于奖励的优化如何自主地发现复杂的动态机制,这些机制对于直接梯度的优化来说不太容易获得。 这些发现为神经计算提供了机械性的见解,并为设计自适应AI系统提供了可操作的原则。
Understanding how learning algorithms shape the computational strategies that emerge in neural networks remains a fundamental challenge in machine intelligence. While network architectures receive extensive attention, the role of the learning paradigm itself in determining emergent dynamics remains largely unexplored. Here we demonstrate that reinforcement learning (RL) and supervised learning (SL) drive recurrent neural networks (RNNs) toward fundamentally different computational solutions when...