42digest首页
流等变循环神经网络

Flow Equivariant Recurrent Neural Networks

T. Anderson Keller

arXiv
2025年7月20日

数据以连续流的形式到达我们的感官,从一个瞬间平滑地转换到下一个瞬间。这些平滑变换可以被视为我们所处环境的连续对称性,定义了随时间变化的刺激之间的等价关系。在机器学习中,尊重数据对称性的神经网络架构被称为等变网络,并在泛化能力和样本效率方面具有可证明的优势。然而迄今为止,等变性仅被考虑用于静态变换和前馈网络,限制了其在序列模型(如循环神经网络RNN)和相应的时间参数化序列变换中的适用性。在本工作中,我们将等变网络理论扩展到"流"的领域——捕获随时间自然变换的单参数李子群,如视觉运动。我们首先证明标准RNN通常不具备流等变性:它们的隐藏状态无法以几何结构化的方式对移动刺激进行变换。然后我们展示了如何引入流等变性,并证明这些模型在训练速度、长度泛化和速度泛化方面显著优于非等变模型,无论是下一步预测还是序列分类任务。我们将这项工作视为构建尊重时间参数化对称性的序列模型的第一步,这些对称性支配着我们周围的世界。

Data arrives at our senses as a continuous stream, smoothly transforming from one instant to the next. These smooth transformations can be viewed as continuous symmetries of the environment that we inhabit, defining equivalence relations between stimuli over time. In machine learning, neural network architectures that respect symmetries of their data are called equivariant and have provable benefits in terms of generalization ability and sample efficiency. To date, however, equivariance has been...