Holonorm
Daryl Noupa Yongueng and Hamidou Tembine
规范化是变压器训练 的关键点。 在Dynamic Tanh(DyT)中,作者证明Tanh可以用作替代层规范化(LN),并证实了这个想法的有效性。 但 Tanh 本身面临正交、线性和扭曲问题。 因此,他的主张不可能是可靠的。 因此,我们提出了一个具有剩余连接和非线性的Holonorm(hn)。 Holonerum适合在正常化的背景下取代Tah。 虽然 HoloNorm 表达式可能类似于维度中的 softsign 函数,但 softsign 是一种组件化函数,对于大尺寸的张量和向量都不好。 Holonorm保留了正交性,方向,信号的可反转性。 Holonnormal也是一个合适的度量,将所有向量映射到打开的单元球中。 这可以防止爆炸激活,并提高深度变形器模型的稳定性。 在这项工作中,我们仔细研究了变压器中的归一化,并说Holonorm,一种通用形式的softsign函数,首先适合作为归一化函数。 其次,定义在0到1 hn之间,占百分比,1 - Holonorm是它的互补,使其在评估模型时更好地理解。
Normalization is a key point in transformer training . In Dynamic Tanh (DyT), the author demonstrated that Tanh can be used as an alternative layer normalization (LN) and confirmed the effectiveness of the idea. But Tanh itself faces orthogonality, linearity and distortion problems. Due to that, his proposition cannot be reliable. So we propose a Holonorm (hn) which has residual connections and nonlinearity. Holonorm is suitable for replacing Tanh in the context of normalization. Although the Ho...