NeuroCLIP: Brain-Inspired Prompt Tuning for EEG-to-Image Multimodal Contrastive Learning
Jiyuan Wang, Li Zhang, Haipeng Lin, Qile Liu, Gan Huang, Ziyu Li, Zhen Liang, and Xia Wu
受大脑启发的人工智能的最新进展试图利用CLIP等多模态模型将神经信号与视觉语义保持一致。 然而,现有方法通常将CLIP视为静态特征提取器,忽略了其对神经表征的适应性以及脑电图图像对齐中固有的生理符号间隙。 为了应对这些挑战,我们介绍了NeuroCLIP,这是一个为EEG到图像对比学习量身定制的提示调整框架。 我们的方法引入了三个核心创新:(1)我们设计了一个双流视觉嵌入管道,结合了动态过滤和令牌级融合,以生成实例级自适应提示,指导基于图像内容的补丁嵌入令牌的调整,从而在神经约束下实现视觉表示的细粒度调制;(2)我们是第一个将视觉提示令牌引入EEG-image对齐,充当全局模式级提示,与实例级调整一起工作。 这些视觉提示令牌被插入到 Transformer 架构中,以促进全球水平的神经感知适应和参数优化; (3) 受人类视觉编码的神经科学原理的启发,我们提出了一个精细的对比损失,更好地模拟脑电图信号中存在的语义模糊性和交叉模态噪声。 在THINGS-EEG2数据集上,NeuroCLIP在零拍摄图像检索中实现了63.2%的Top-1精度,超过了之前的最佳方法1 +2.3%,并在主题间条件下(+4.6% Top-1)展示了强大的概括性,突出了生理学感知提示调谐在连接大脑信号和视觉语义方面的潜力。
Recent advances in brain-inspired artificial intelligence have sought to align neural signals with visual semantics using multimodal models such as CLIP. However, existing methods often treat CLIP as a static feature extractor, overlooking its adaptability to neural representations and the inherent physiological-symbolic gap in EEG-image alignment. To address these challenges, we present NeuroCLIP, a prompt tuning framework tailored for EEG-to-image contrastive learning. Our approach introduces ...