Subliminal Learning: Language models transmit behavioral traits via hidden signals in data
Alex Cloud, Minh Le, James Chua, Jan Betley, Anna Sztyber-Betley, Jacob Hilton, Samuel Marks, Owain Evans
我们研究了隐性学习这一令人惊讶的现象,即语言模型通过语义无关的数据传递行为特征。在我们的主要实验中,具有某种特征T(如喜欢猫头鹰或未对齐)的"教师模型"生成仅由数字序列组成的数据集。值得注意的是,在该数据集上训练的"学生模型"学会了特征T。即使数据经过过滤去除了对T的引用,这种现象仍然存在。当使用相同教师模型生成的代码或推理轨迹进行训练时,我们观察到相同的效果。然而,当教师模型和学生模型的基础模型不同时,我们没有观察到这种效应。为了解释我们的发现,我们证明了一个理论结果,表明在某些条件下所有神经网络中都会发生隐性学习,并在一个简单的MLP分类器中展示了隐性学习。我们得出结论,隐性学习是一种普遍现象,为AI开发带来了意想不到的陷阱。即使开发者试图通过数据过滤来防止,蒸馏仍可能传播非预期的特征。
We study subliminal learning, a surprising phenomenon where language models transmit behavioral traits via semantically unrelated data. In our main experiments, a "teacher" model with some trait T (such as liking owls or being misaligned) generates a dataset consisting solely of number sequences. Remarkably, a "student" model trained on this dataset learns T. This occurs even when the data is filtered to remove references to T. We observe the same effect when training on code or reasoning traces...