42digest首页
龙宝宝:Transformer与脑模型之间的缺失环节

The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain

Adrian Kosowski, Przemysław Uznański, Jan Chorowski, Zuzanna Stamirowska, Michał Bartoszkiewicz

arXiv
2025年9月30日

自约翰·冯·诺依曼和阿兰·图灵以来,计算系统与大脑之间的关系一直是理论先驱者的研究动机。均匀的、无标度的生物网络(如大脑)具有强大的特性,包括随时间推移的泛化能力,这是机器学习在通往通用推理模型道路上的主要障碍。我们介绍了"龙宝宝"(BDH),这是一种新的大型语言模型架构,基于一个由n个局部相互作用的神经元粒子组成的无标度生物启发网络。BDH结合了强大的理论基础和固有的可解释性,同时不牺牲类似Transformer的性能。BDH是一个实用的、高性能的、基于注意力的最先进状态空间序列学习架构。除了作为图模型外,BDH还支持GPU友好的实现。它表现出类似Transformer的缩放定律:经验表明,在相同参数数量(1000万到10亿)和相同训练数据的情况下,BDH在语言和翻译任务上的性能可与GPT2相媲美。BDH可以表示为脑模型。BDH在推理过程中的工作记忆完全依赖于使用脉冲神经元的Hebbian学习的突触可塑性。我们经验证实,在处理语言输入时,每当BDH听到或推理特定概念时,特定的单个突触会加强连接。BDH的神经元相互作用网络是一个具有重尾度分布的高模块化图。BDH模型在生物学上是合理的,解释了人类神经元可能用来实现言语的一种可能机制。BDH专为可解释性而设计。BDH的激活向量是稀疏且正的。我们在语言任务上证明了BDH的单义性。状态的可解释性(超越神经元和模型参数的可解释性)是BDH架构的固有特征。

The relationship between computing systems and the brain has served as motivation for pioneering theoreticians since John von Neumann and Alan Turing. Uniform, scale-free biological networks, such as the brain, have powerful properties, including generalizing over time, which is the main barrier for Machine Learning on the path to Universal Reasoning Models. We introduce `Dragon Hatchling' (BDH), a new Large Language Model architecture based on a scale-free biologically inspired network of $n$ l...