42digest首页
片段神经注意,实现高效的多尺度序列处理

Fractional neural attention for efficient multiscale sequence processing

Cheng Kevin Qu, Andrew Ly, Pulin Gong

arXiv
2025年11月13日

注意力机制支撑着Transformer模型的计算能力,这些模型在不同领域取得了显着的成功。 然而,理解和扩展自我关注的基本原则仍然是推进人工智能的关键挑战。 从生物注意力的多尺度动力学和动力学系统理论中汲取灵感,我们引入了分形神经注意力(FNA),这是一个有原则的,神经科学启发的多尺度信息处理框架。 FNA模型通过由分数拉普拉西亚(Lévy)拉普拉西亚(Lévy)扩散(Lévy diffusion)进行代币交互,本质上实现了跨多个尺度的短期和长期依赖。 这种机制产生更大的表现力和更快的信息混合,提高了变形金刚的基础容量。 从理论上讲,我们表明FNA的动力学受分数扩散方程的支配,由此产生的注意力网络表现出更大的光谱间隙和更短的路径长度 - 增强计算效率的机械性特征。 在经验上,FNA即使使用单层和单头也能实现具有竞争力的文本分类性能;它还提高了图像处理和神经机器翻译的性能。 最后,来自几何谐波的扩散图算法实现了FNA权重的维度降低,同时保持嵌入和隐藏状态的内在结构。 这些结果共同建立了FNA作为连接自我注意力,随机动力学和几何学的原理机制,为强大的神经科学启发的人工智能提供了可解释的生物学基础。

Attention mechanisms underpin the computational power of Transformer models, which have achieved remarkable success across diverse domains. Yet understanding and extending the principles underlying self-attention remains a key challenge for advancing artificial intelligence. Drawing inspiration from the multiscale dynamics of biological attention and from dynamical systems theory, we introduce Fractional Neural Attention (FNA), a principled, neuroscience-inspired framework for multiscale informa...