L2T-Hyena: Enhancing State-Space Models with an Adaptive Learn-to-Teach Framework
Fatemeh Sohbati, Farzan Haddadi and Hamid Salahinejad
状态空间模型(SSM)已成为像Transformers这样的计算密集型架构的有效替代品,特别是序列建模。 然而,他们培训的一个基本挑战是依赖静态损失函数,这在所有的学习阶段可能不是最佳的。 为了解决这个问题,本文提出了将鬣狗架构与动态损失网络(DLN)集成的混合模型,该模型由学习到教学(L2T)方法(L2T-DLN)指导。 在这个框架中,Hyena模型是学生,其损失函数进行了适应性优化。 教师模型,利用学生过去表现的记忆,指导DLN动态平衡主要的交叉熵损失和正则化术语。 Penn Treebank(PTB)数据集的实验表明,我们的方法显著提高了语言建模性能。 我们提出的模型实现了102.6的验证Perplexity,比使用静态损失函数的基线鬣狗模型实现的110.4显着改进。 这项研究表明,将SSM与自适应损失功能相结合,显着提高了顺序数据深度学习模型的质量和效率,显示了自然语言处理(NLP),时间序列分析和生物信号处理应用的潜力。
State-Space Models (SSMs) have emerged as efficient alternatives to computationally intensive architectures like Transformers, particularly for sequence modeling. However, a fundamental challenge in their training is the reliance on static loss functions, which may not be optimal across all learning stages. To address this issue, in this paper a hybrid model integrating the Hyena architecture with a Dynamic Loss Network (DLN) is proposed which is guided by a Learn-to-Teach (L2T) approach (L2T-DL...