Disentangling the Factors of Convergence between Brains and Computer Vision Models
Joséphine Raugel, Marc Szafraniec, Huy V. Vo, Camille Couprie, Patrick Labatut, Piotr Bojanowski, Valentin Wyart, Jean-Rémi King
许多在自然图像上训练的AI模型产生了类似于人类大脑的表征。 然而,驱动这种大脑模型相似性的因素仍然知之甚少。 为了解开模型、训练和数据如何独立地引导神经网络开发类似大脑的表征,我们训练了一个自我监督的视觉变压器(DINOv3)家族,系统地改变了这些不同的因素。 我们将它们的图像表示与fMRI和MEG记录的人脑的表征进行比较,在空间和时间分析中提供高分辨率。 我们通过三个互补指标来评估大脑模型相似性,重点关注整体表示相似性,地形组织和时间动力学。 我们表明,所有三个因素 - 模型大小,训练量和图像类型 - 独立和交互式地影响这些大脑相似性指标。 特别是,用最以人为中心的图像训练的最大DINOv3模型达到了最高的大脑相似度。 在AI模型中,这种类似大脑的表征的出现遵循了训练过程中的特定年表:模型首先与感觉皮层的早期表示一致,并且仅与大脑的晚期和前额叶表征保持一致,并进行了更多的训练。 最后,这种发育轨迹被人类皮层的结构和功能特性所索引:模型最后获得的表征与具有最大发育膨胀,厚度,最小髓鞘和最慢时间尺度的皮质区域特别一致。 总体而言,这些发现将架构与塑造人工神经网络如何像人类一样看待世界的经验之间的相互作用进行了区分,从而提供了一个有前途的框架来了解人类大脑如何代表其视觉世界。
Many AI models trained on natural images develop representations that resemble those of the human brain. However, the factors that drive this brain-model similarity remain poorly understood. To disentangle how the model, training and data independently lead a neural network to develop brain-like representations, we trained a family of self-supervised vision transformers (DINOv3) that systematically varied these different factors. We compare their representations of images to those of the human b...