Probing the Vulnerability of Large Language Models to Polysemantic Interventions
Bofan Gong, Shiyang Lai, Dawn Song
多语义性 - 单个神经元编码多个不相关的特征 - 是大型神经网络的著名特征,仍然是语言模型可解释性的核心挑战。 同时,它对模型安全的影响也知之甚少。 利用稀疏自动编码器的最新进展,我们研究了两个小模型(Pythia-70M和GPT-2-Small)的多语义结构,并在提示,特征,令牌和神经元级别评估其针对目标,隐蔽干预的脆弱性。 我们的分析揭示了两种模型中共享的一致的多语义拓扑。 引人注目的是,我们证明可以利用这种结构在两个更大的黑箱指令调整模型(LLaMA3.1-8B-Instruct和Gemma-2-9B-Instruct)上进行有效的干预。 这些发现不仅表明干预措施的可推广性,而且还表明一种稳定且可转移的聚语义结构,这种结构可能存在于架构和培训制度中。
Polysemanticity – where individual neurons encode multiple unrelated features – is a well-known characteristic of large neural networks and remains a central challenge in the interpretability of language models. At the same time, its implications for model safety are also poorly understood. Leveraging recent advances in sparse autoencoders, we investigate the polysemantic structure of two small models (Pythia-70M and GPT-2-Small) and evaluate their vulnerability to targeted, covert interventions...